就是我现在有一个视频,这个视频中有三个人在对话,我想通过语音识别来分别识别出这三个人都谁说了哪句话,并且把它导出成文本标记出来。然后方便我去做翻译。。。
1
kirieievk 4 天前
关注!
|
2
Perry 4 天前 via iPhone
有很多 Podcast 生产力工具支持这样的,Perplexity 搜下试试看?
|
3
vopin 4 天前 via iPhone
同样需求,一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行,一些经典机器学习方法也不完美。
现在不知道怎样了 |
4
NOneKnowYeah 4 天前
通义听悟
|
5
gpt5 4 天前
我记得当年学 svm 的时候,老师给过一个例子,用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。
|
6
JayZXu 4 天前
飞书个人版的妙记
直接上传视频,会自动生成字幕而且匹配发音人 可能会识别出多个发音人,改下标注就行了 而且还能切换各种语言翻译的结果 |
7
mfy 4 天前
sherpa-onnx ,FunASR
这两个都可以。测试下来,感觉 sherpa-onnx 识别的准确度稍高一些;使用上 FunASR 简单一些。 |
8
evan1 4 天前 via iPhone
钉钉会议可以实现,用过一两次。识别准确率估计 80%-90%左右。
|
11
dzdh 4 天前
阿里的语音识别 API 可。
|
12
jiobanma 4 天前
阿里的通义听悟
|
13
Daybyedream 4 天前
飞书那个 一直可以 讯飞妙计
|
14
Tuuure 4 天前
我没办法给出具体的解决方案,但这种需求一般被叫做“鸡尾酒会问题”,可以用这个作为关键词去搜索一下
|