声纹识别答疑

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3568 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前在做一个与声纹识别有关的项目，应用场景和微信摇电视功能差不多，手机麦克风采集，然后和后台的视频流对比对。

实际做起来发现，准确率低的可怜，不知道是不是自己的方法有问题，又或者参数选取有问题。请这方面的朋友看看，帮忙理一理思路。

处理流程包括，麦克风采集（wav文件），声纹计算（MFCC），声纹匹配（DTW）。

麦克风

微信

采集

12 条回复 • 2015-12-20 13:50:40 +08:00

Themyth

2015-04-13 11:33:42 +08:00

太高端了，不懂，帮顶。。
--------------

很好奇，是不是用声音可以加密啊？

sqbing

2015-04-13 11:51:08 +08:00

@Themyth 理论上来说很简单，MFCC的方法是上个世纪就提出来并且广泛使用的，很多项目也证明了声纹识别是可以实现的，比如echoprint和微信

yghack

2015-04-13 11:55:33 +08:00

还是算法识别率的问题吧
我原来做过指纹识别，尝试了很多种方法，算法差别很大。

jdnull

2015-04-13 12:25:31 +08:00

信道差别影响可能会很大；另外你的声纹匹配是硬匹配么？可以考虑把问题转化为分类问题，用一些分类算法做

miaoever

2015-04-13 12:43:54 +08:00

模式识别无非就是要不特征牛，要不分类器牛。如果都不行，那效果也可想而知。

liuweisj

2015-04-14 10:24:44 +08:00

可以试试把声纹转成文本，用simhash计算距离来做相似度比较

sqbing

2015-04-16 08:13:33 +08:00

@yghack 算法倒是没多大差别，就是不同的实现效率不一样

sqbing

2015-04-16 08:15:07 +08:00

@jdnull 似乎很难转化为分类问题，而且我也没有办法做样本训练，用于校验的声音源是电视台的直播

sivacohan

2015-06-05 08:51:34 +08:00 via Android

声纹识别目前还是一个概念级的东西。
声纹识别的难点在于不同设备录音会引入不同的噪音。并且采样率，位宽不同都会造成影响。
MFCC的问题在于理论上是对的，但实际上把主音，背景噪音，电流噪音，mic噪音都去掉，可以有效用于识别的频道就很窄了。
PS，如果识别准确率能达到30%，你就已经很厉害了。

sqbing

2015-06-08 08:21:30 +08:00

@sivacohan 我描述的声纹识别相对来说很简单，不设计分词等等，只是单纯的波形匹配。目前的准确率在80%左右，不过你描述的噪音问题确实存在，我也在想办法提高信噪比。
目前我的问题是性能不足，高并发情况下，处理效率太低了，主要是DTW算法的问题，离上线还有段距离。

sivacohan

2015-06-08 09:10:23 +08:00 via Android

@sqbing 有空Gtalk聊。

astonysh

2015-12-20 13:50:40 +08:00

这个为啥要自己做？国内有提供专业解决方案的公司： http://acrcloud.cn