我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
1
106npo 6h 18m ago
比 large v3 更准的是 medium. large 不管是中文还是日文,幻觉太多了
|
2
heartleo 6h 16m ago
|
3
380cc 5h 56m ago
@106npo 想问问,whisper large v3 精准度比 large v2 好吗?我记得我以前用的时候,large v3 结果比 large v2 要差啊,用的 whisper kit.
|
4
ahci 5h 51m ago
感觉 v3 不如 v2 ,尤其是处理日语方面
|
5
neteroster 5h 50m ago via Android
那太多了,中文的话豆包,多语言的话
elevenlabs ,soniox |
6
wcwcxiaobin OP @106npo 我一直以为它这个模型越大,越准,时间戳也越准
|
7
wcwcxiaobin OP @ahci 你是懂日语的
|
8
jackOff 5h 32m ago
https://github.com/RVC-Boss/GPT-SoVITS 这个项目我用 whisper large v3 跑似乎还行?其他的没有测过
|
10
wcwcxiaobin OP @106npo 那我试试 v2
|