有没有比 whisper large v3 更准更强的

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我平时用来输出词级字幕，最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。

asr

字幕

准确率

15 replies • 2026-06-03 17:19:46 +08:00

106npo

22 days ago

比 large v3 更准的是 medium. large 不管是中文还是日文,幻觉太多了

heartleo

22 days ago

elevenlabs.io

380cc

22 days ago

@106npo 想问问，whisper large v3 精准度比 large v2 好吗？我记得我以前用的时候，large v3 结果比 large v2 要差啊，用的 whisper kit.

ahci

22 days ago

感觉 v3 不如 v2 ，尤其是处理日语方面

neteroster

22 days ago via Android

那太多了，中文的话豆包，多语言的话

elevenlabs ，soniox

wcwcxiaobin

22 days ago

@106npo 我一直以为它这个模型越大，越准，时间戳也越准

wcwcxiaobin

22 days ago

@ahci 你是懂日语的

jackOff

22 days ago

https://github.com/RVC-Boss/GPT-SoVITS 这个项目我用 whisper large v3 跑似乎还行？其他的没有测过

106npo

22 days ago

@380cc v3 在大多数情况下没 v2 好,我曾经记得 openai 自己也承认这一点,不过现在找不到来源了.

wcwcxiaobin

22 days ago

@106npo 那我试试 v2

m1nm13

21 days ago

反正我是觉得 Whisper 已经过时了，而且过时好几年了。

sensevoice 这类比较新的非自回归的模型，可能效果都比它好。

noahjsn

21 days ago

@neteroster #5
这两个都是 API ，不是本地跑的

rayer4u

21 days ago

qwen3-asr 不错的，对中文、方言支持比 whisper 好

uprit

21 days ago

是挺神奇的，有时候 base 也比 large 准

wcwcxiaobin

21 days ago

@rayer4u qwen 这个试了，时间戳不是很准，