赞
踩
根据前面的文章我们已经可以做出一个可用性较强的声纹识别系统了,但声纹识别的应用不仅限于声纹确认和声纹搜索中,例如我们今天说的说话人分离(也叫说话人分割聚类)也需要用到声纹模型。而说话人分离又分为在线说话人分离和离线说话人分离。
目前对包含多说话人并且语音不交叠的音频的离线说话人分离较为简单,简单说一下思路:
经过上面的步骤我们往往可以得到一个这样的结果:
[0, 1, 1, 2, 2, 1, 0, 1, 2]
上面的每个数字都代表对应索引的声音片段属于哪个人,根据自己的需要进行再次处理即可。
离线说话人分离因为可以看到所有的语音,因此在最后我们可以使用聚类方法进行聚类,从而得到一个较好的结果,但实时则除了当前时间及之前的信息之外无法获取更多有效信息,这也是当前实时说
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。