V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
dmitsc
V2EX  ›  分享创造

[分享] 一款高效的音频/视频转文字工具——语音识别生成字幕

  •  
  •   dmitsc · 2023-05-29 23:38:47 +08:00 · 2400 次点击
    这是一个创建于 528 天前的主题,其中的信息可能已经有所发展或是发生改变。
    以下内容由 chatgpt 撰写

    大家好,我在这里分享一个我最近发现( gang bian de )的非常实用的工具——音频 /视频转文字工具。

    这个工具可以帮助你把音频或者视频文件转化为文本,是非常好用的语音识别工具。最令人振奋的是,它不仅可以自动识别语言,而且可以生成多种格式的字幕文本。

    主页: https://whisper.myfastools.com/

    功能介绍:

    音频转文字
    识别语言
    生成多种格式的字幕文本( TXT 、SRT 、JSON 、TSV 、VTT )
    使用流程:

    上传你的音频或者视频文件,系统会生成一个提取码显示在网页上,你可以用这个提取码来提取你的识别结果。识别结果包含了多种格式的字幕文本。

    这是一段以英语演讲识别样例:

    [点击这里下载 TXT 格式的结果文件]

    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.txt
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.srt
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.json
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.tsv
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.vtt
    替换后缀即可下载( TXT 、SRT 、JSON 、TSV 、VTT )中的其他格式

    希望这个工具对大家有所帮助。如果在使用过程中遇到问题,或者有什么改进的意见,都欢迎在下面留言。我会及时进行回复和改进。期待你们的反馈!

    TODO:修改 UI ,添加登录功能,添加使用 GPU 的工作节点,显示实时进度,显示列队
    第 1 条附言  ·  2023-06-01 14:59:30 +08:00

    2023/6/1 儿童节更新

    • 添加语言选择
    • 添加质量/速度偏好选择

    目前默认为速度,如果选质量可能暂时不会处理。预计本周更新高质量识别。

    儿童节图片

    第 2 条附言  ·  104 天前
    有人识别了大量违规信息,并同过网站提供结果内容下载,但是我没有时间处理这类违规信息,直接把网站停了。
    13 条回复    2024-07-27 02:14:48 +08:00
    shuxge1223
        1
    shuxge1223  
       2023-05-30 11:19:30 +08:00
    准确率咋样啊
    dmitsc
        2
    dmitsc  
    OP
       2023-05-30 11:28:08 +08:00
    @shuxge1223
    准确率很好了,你可以试一下

    不过现在是没上好的硬件,可能会慢,大概几十秒到几分钟不等。

    等我写完分布式处理之后,应该可以在三十秒内处理完大多数任务。
    cxumol
        3
    cxumol  
       2023-05-30 13:51:19 +08:00
    JerryLin
        4
    JerryLin  
       2023-05-30 14:17:05 +08:00
    看到 whisper 就想到 OpenAI 提供的 whisper 接口,楼主是使用 OpenAI 提供的吗?
    AMZsowhat
        5
    AMZsowhat  
       2023-05-30 17:07:15 +08:00
    用几条中文人声语句测试了下,发声能准确识别,但是没有对上下文语意的分析,所以对于[在\再] [借\接]等词汇无法进行准确辨析
    dmitsc
        6
    dmitsc  
    OP
       2023-05-30 21:09:44 +08:00
    @JerryLin 是的,使用了 OpenAI 的 Whisper 作为语音识别端。
    dmitsc
        7
    dmitsc  
    OP
       2023-05-30 21:11:25 +08:00
    @AMZsowhat 目前由于硬件条件限制,采用了轻量模型。后续会采购硬件改用大模型,在那之后就会由上下文语意匹配的能力。
    dmitsc
        8
    dmitsc  
    OP
       2023-06-01 15:01:09 +08:00
    @cxumol 预计本周末上线更高准确率的识别能力,到时候可以再试一下~
    TernenceZhou
        9
    TernenceZhou  
       2023-08-23 16:44:09 +08:00
    你好,目前转文字好像没有弹出提取码
    大佬 服务还能用吗
    TernenceZhou
        10
    TernenceZhou  
       2023-08-23 16:50:07 +08:00
    提取码在左下角,然后提取码下载 auto-speed-70f82c3577358ece19aa70f735fa6bc7
    https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-9805069510030683
    出现 block status
    识别文件没有下载成功
    dmitsc
        11
    dmitsc  
    OP
       105 天前
    有人识别了大量违规信息,并同过网站提供结果内容下载,但是我没有时间处理这类违规信息,直接把网站停了。
    jaylong
        12
    jaylong  
       105 天前
    有没有本地解决方案? 避免隐私问题
    dmitsc
        13
    dmitsc  
    OP
       104 天前
    @jaylong 有的,可以直接在本地环境中安装 whisper.cpp 或者 python 中的 whisper
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2825 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:19 · PVG 19:19 · LAX 03:19 · JFK 06:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.