试过 openAI 的 whisper ,不管是 medium 还是 large V1~V3 ,中文都被污染的非常严重.不是无法识别,就是输出中有不少广告内容.
不知道是否有针对中文训练好的模型或者权重呢,如果能支持 Whisper-faster Whisper.cpp 就更好了
1
haiku 1 天前 via Android
阿里记得有类似的
|
2
Auston 1 天前
funasr ,里面很多
|
3
ModerRAS 1 天前
广告那个,有没有可能是因为静音的部分出幻觉了?那种一般做个 vad 都能破掉大部分的。其他的你可以打开硅基流动看看,那边还有一些免费的 asr 模型的,我主要用个阿里那个 sensevoice 。
|