当前位置:   article > 正文

一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony

一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony

前言:声纹识别是AI领域中一个看似很小、但其实有机会在近期落地,且比较有意思的细分方向;本文作者是“AI产品经理大本营”团员@cony  ,她总结了AI产品经理“最必要”了解的声纹识别技术知识和行业现状(多了没必要,少了又不足以入门、准备面试或工作实战文末有【福利:起点学院/人人都是产品经理·5周年大促优惠,hanniman读者再减30元-150元/单。


目录

一、核心概念(定义、原理、优劣势、分类、评判标准)

二、技术边界(外部影响、人自身影响、假冒攻击)

三、瓶颈和机会(数据、多生物特征识别融合、5个应用领域)

四、声纹识别厂商简介(科大讯飞、得意音通、声扬科技、国音科技、快商通、远鉴科技)

1


核心概念

1、定义

声纹识别Voice Print Recognition,简称VPR),也称为“说话人识别”,是“根据声纹特征识别某段语音所对应的说话人”的过程。

因为发音涉及到口腔、鼻腔、喉咙和胸腔的器官的共振,还有唇、齿、舌的差异,每个人说话都有自己独特的语音特征和发音习惯,即使是模仿,也难以改变说话者最本质的发音特性和声道特征,所以,就像人脸、指纹、虹膜一样,声纹也属于生物特征之一。

2、识别原理

图1 声纹识别系统架构

声纹识别是一类典型的模式识别问题,主要包含了训练识别两个阶段。

训练阶段,算法提取训练库里的语音特征,并进行深度学习,训练出模型;识别阶段,将注册音频和待识别的音频进行特征提取之后,比对出得分,得分超过阈值,则识别通过,反之则不通过。

注:网上讲解技术原理的参考文章:1)https://www.jianshu.com/p/19d34b19517b ;2)https://blog.csdn.net/xiaocao9903/article/details/80649284,有兴趣的同学可以看看(需要长按链接,复制后再用浏览器打开)。

3、优劣势

1)声纹识别的优势

  • 准确率高:在理想情况下(环境安静、采集质量高、发音正常),声纹识别的准确率可以达98%以上;

  • 采集成本低:声纹采集对设备的要求不高,如今智能手机的普及,手机自带麦克风一般都能能满足采集要求,并且人在说话的时候就能无感采集,无附加操作成本;

  • 远程操作:只需要有麦克风,就可以远程采集声纹,并通过网络传输;

  • 不怕丢失:生物特征的特殊优势,属于身体的一部分,不会像外部密码会丢失;

  • 隐私性弱:人们对人脸、指纹的隐私性比较敏感,而声音是每天都会说的,采集比较容易,大众接受度比较高。

2)声纹识别技术的商用发展还处于起步阶段,所以关于使用上,还存在局限性

  • 声音易变性:一个人在不同时间、不同地点下,说话音量、音调都会有所变化,这对算法的鲁棒性要求比较高;

  • 环境噪音:噪音会干扰声纹的特征提取,使得识别准确率大大降低,所以一些声纹厂商会自研一套音频降噪处理算法;

  • 多人声音重叠:目前的算法技术还不能做到分离两个人重叠的声音,配合麦克风阵列,可以从源头就将不同发音方向的人声分离;

  • 说话时长限制:太短的语音提取不了足够的声纹特征信息,固定文本内容的最短有效时长至少是0.8秒自由文本内容是2秒(后面会对文本内容要求进行解释);

  • 距离限制0.5m以内的近场识别效果会比远场好,越远音量越小,识别准确率越低;

4、分类

1)按功能角度分类,可分为以下5种

A )声纹1:1:即声纹确认。说话人事先录入过自己的声音后,验证时,只需要说一句话,即可验证自己的身份,比对时,验证语音只和一个注册音频的对比。微信和支付宝的声纹登录功能就属于声纹1:1。

B )声纹1:N:即声纹辨认。一个声纹库包含了N个已收集的人员声纹特征,验证时,说一句话,即可找到库里的对应人员,比对时,验证语音和N个注册音频对比。家庭机器人如果要听声识人,就会用到声纹1:N。

C)性别识别:只需说一句话,就能判断说话人的性别。

D)年龄识别:C和D这两个,属于偏娱乐性的功能,市场上对其的需求并不强烈,所以准确率也不高。不过只要有足够标注准确的数据,年龄识别的准确率还是可以提高的。

5)情绪识别:情绪识别,对于成年人来说,不同人在相同情绪下的声音的共性并不明显,而小孩或者婴儿的共性会更明显,之前团员@长弘写的一篇《能否借助AI破译婴儿哭声?》(https://shimo.im/docs/gt9JoNSVAXoH7Q52/ ),涉及的技术应算是此范畴。

2)按语音文本内容角度分类,可分为以下3种

A)固定文本,指内容固定的短语句,比如“小爱同学”,如果对智能硬件的唤醒词身份识别准确率要求较高的话,可以针对固定语句去训练一个模型,可提高识别率。

B)文本无关,指说话内容不固定,不限制语种、方言,只要说话语音达到限定的有效时长即可识别。

C)数字文本,指纯数字的文本,在微信和支付宝里的应用是8位且不重复的数字。

不同的分类,算法模型也有所不同,对应应用的领域和场景也不一样。

另外,采样率也会影响到算法模型,主流音频采样率是8k和16k,电话信道录音是8k的,手机信道录音是16k的

5、语音质量检测

为提高识别准确率,在进行声纹识别之前,待识别音频需先经过语音质量检测,检测内容包括音频有效时长、音量大小、信噪比,这些检测项均可根据不同的使用场景和需求进行参数配置,一旦其中一项检测没有达到标准,就会返回提示给用户重新调整录音。

当然这不是必须的,根据实际的需求进行设置即可,参数配置得越严格,有利于保证识别的准确性,但会影响用户体验。

6、评判标准

声纹1:1和声纹1:N的评判标准不一样。

1)声纹1:1

声纹1:1的评判标准主要看两个,错误拒绝率(False Reject Rate,FRR)错误接受率(False Accept Rate,FAR )。FRR指把本应判定对“Ture”的人,判定为“False”,FAR指把本应判定为“False”的人,判定为“Ture”。二者的定义公式如下:

  • 错误拒绝率(FRR)=被错误拒绝的样本数/应被接受的样本数*100%

  • 错误接受率(FAR)=被错误接受的样本数/应被拒绝的样本数*100%

FAR越高,体验越好,安全性越低,FRR越高则相反,而二者是此消彼长的,可通过调整阈值进行权衡,根据不同的场景需求,调整得到不同的指标。

FAR和FRR的相互变化曲线,称为ROC曲线,曲线上FAR=FRR的点,为等错误率(EER),EER越小,算法模型越好。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/359307
推荐阅读
相关标签
  

闽ICP备14008679号