Dkphhh

做了一个音/视频转文本的工具

  •  
  •   Dkphhh · 17h 41m ago · 353 views

    做了一个音/视频转文本的工具,叫 video to text

    功能非常简单直接,把音频或者视频文件拖进去,就能转化成文本,支持 4 种导出格式:srt, vtt, txt, or csvsrtvtt 是字幕文件的格式。

    导出的字段包括:这句话的开始时间、结束时间、发言人标签(不同的人会标注 speaker A 、speaker B )和这句话的文本。

    支持 99 种语言,也支持多语言音/视频的识别。

    比较适合用来做会议记录、课堂录音或者是采访录音的转写。

    使用前需要登录,新用户有 30 分钟免费使用时长。

    大概说一下这个工具的工作流吧。

    如果你上传的是视频文件,会先在本地转化成音频,然后上传到后端存储(如果是音频文件就直接上传)

    这个后端存储我用的是 Cloudflare r2, 设置了一个 72 小时后自动删除的规则。

    上传完以后,会调用 Assembly 的 api 进行转写,转写后的数据保存在 Assembly 那边,Assembly 也是默认保存 72 小时。

    是的,我没有把数据保存到数据库,所有的设计都是为了不给自己添麻烦。

    前端收到的结果是一个 Assembly api 返回的 id ,后续导出也是通过 id 请求 Assembly 的 api 返回数据,在我的后端拼接处理一下,返回给用户。

    用户本地也会保留最近 72 小时的上传记录。如果之前导出的文件丢了,还能继续导出。

    使用的开发框架是 Sveltekit 。

    😊

    1 replies    2026-05-13 07:24:55 +08:00
    alfawei
        1
    alfawei  
       9h 1m ago
    似乎 ai 都可以 我之前把歌曲 mp3 丢进去 生成歌词文件
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5604 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 08:26 · PVG 16:26 · LAX 01:26 · JFK 04:26
    ♥ Do have faith in what you're doing.