离线字幕提取，基于 Whisper 封装了一个小工具，支持 GPU

rerender · 2023-03-29T00:57:43Z

制作了这样一个 Windows 上的小工具，用于提取字幕。使用说明： https://rerender2021.github.io/products/heard/ 仓库地址： https://github.com/rerender2021/heard 生成的字幕还可以离线英文翻译为中文：使用说明： https://rerender2021.github.io/products/srt2srt/ 仓库地址： https://github.com/rerender2021/srt2srt

爱意满满的作品展示区。

This topic created in 1200 days ago, the information mentioned may be changed or developed.

制作了这样一个 Windows 上的小工具，用于提取字幕。

heard-usage

使用说明： https://rerender2021.github.io/products/heard/
仓库地址： https://github.com/rerender2021/heard

生成的字幕还可以离线英文翻译为中文：

srt2srt-usage

使用说明： https://rerender2021.github.io/products/srt2srt/
仓库地址： https://github.com/rerender2021/srt2srt

字幕

仓库

提取

whisper

22 replies • 2023-06-14 12:58:55 +08:00

Greenm

Mar 29, 2023

楼主的我没用过，但是同样有一个 windows 上基于 whisper 的竞品： https://github.com/chidiwilliams/buzz

Greenm

Mar 29, 2023

@Greenm 说错了，buzz 是 mac ，windows ，Linux 都支持。

renmu

Mar 29, 2023 via Android

提点可能能做出差异化的东西。
其实你可以支持点别的东西，比如 whisperx ，faster-whisper ，以及一些超参数，反正你是用 Python 起得服务器来实现调用的，应该不会太麻烦。
whisper 对长音频解析的时候会经常出现多句重复的情况，可以做些简单处理。
也可以支持转成 ass 。
不同的音频可能参数会不一样，还可以支持什么参数配置加载。

ps：whisper 好像对唱歌音频效果不太好，有知道大佬吗

wudicgi

Mar 29, 2023

赞~~~

我是半个多月前刚了解到的这个 Whisper, 还打算结合以前做过的 SpleeterMsvcExe 项目做个自动生成歌词的工具
Whisper 识别出来的字幕，时间戳对齐的不太好，虽然现在有 word aligned 参数，但加上这个参数后识别效果不如不加时的
结合 Spleeter 对音频文件先分离出 vocals 轨，再按语音强弱把字幕给对齐一下应该就有不错的效果了

learner

Mar 29, 2023

"whisper 对长音频解析的时候会经常出现多句重复的情况" 这个我也遇到了，大佬有什么解决办法吗？

learner

Mar 29, 2023

@wudicgi " whisper 对长音频解析的时候会经常出现多句重复的情况" 这个我也遇到了，大佬有什么解决办法吗？

wudicgi

Mar 29, 2023

另外有一个 whisper.cpp 的项目，可以免除 Python 环境
https://github.com/ggerganov/whisper.cpp

缺点是不支持 GPU, 启用 word aligned 参数时比官方原版的效果要差很多

learner

Mar 29, 2023

@renmu " whisper 对长音频解析的时候会经常出现多句重复的情况" 这个我也遇到了，大佬有什么解决办法吗？（ V2EX 的回复功能不太会用……

wudicgi

Mar 29, 2023

@learner 这个从我用过几次的经验来看，换大一些的模型这种现象出现的会少一些
比如用 medium 模型，和 small, tiny 相比就不容易出这个问题

其他的因为还没具体去看它是如何对音频进行切片处理的，还不太清楚问题根源

renmu

Mar 29, 2023 via Android

简单粗暴的方法就是对解析后的 srt 再做个处理，如果前后两句重复，那么直接把后一句删了。

learner

Mar 29, 2023

@wudicgi 我用了 large 的模型也会出现，我这边试了 1 小时以上的音频基本上是必现的。。。

learner

Mar 29, 2023

@renmu 这样中间字幕会缺很多，一小时的视频，可能中间有十分钟都没字幕了

renmu

Mar 29, 2023 via Android

@learner 我这边的情况是在一般只有在没人说话的时候才会不断重复上一句。
你可以试试 whisperx ，好像情况会好一些，具体我没测试过

tool2d

Mar 29, 2023

@wudicgi 我也在用 whisper.cpp 这个，感觉很方便。

可惜识别的是繁体，中文多音字也不少，还要手动校验一次，和英语音译体验不好比。如果中文校验能自动化就好了。

iX8NEGGn

Mar 29, 2023 via iPhone

“生成的字幕还可以离线英文翻译为中文”，这也是 whisper 做的吗？我记得它只支持其他语言翻译成英文

koast

Mar 29, 2023

@tool2d 繁体的问题可以通过 initial_prompt 来解决，大致是用简体中文给指示就好，在 whisper 的 issue 里有人提到过，效果挺好的

kernelpanic

Mar 29, 2023

真复杂，又是 server 又是 npm 的，直接用这个不香吗，https://github.com/Const-me/Whisper ，不用安装，只有几百 kb 大小，再下载个模型 https://huggingface.co/ggerganov/whisper.cpp/tree/main ，直接用，还支持 GPU 加速

rerender

Mar 29, 2023

@iX8NEGGn whisper 那个是语音翻译，这里是指使用 whisper 生成字幕后，对字幕翻译，是另一个工具了，将英文文本的 srt 文件，翻译为中文文本的 srt 文件

hanguofu

Mar 30, 2023

请问识别普通话的时候，WER 错误率很高吗？

rerender

Mar 30, 2023

@hanguofu whisper 官方有给一个表，中文是 14.7 ，英文是 4.2 。链接： https://github.com/openai/whisper

renmu

Mar 30, 2023 via Android

@learner 那你可以试试获取到重复的时间后，用 ffmpeg 切出来再给他识别一次，之后再拼上去

candafromcn

Jun 14, 2023

@rerender 字幕翻译是用什么实现的，网络 api 还是 AI 翻译？