赞
踩
智能音箱的唤醒率和识别率除了受算法影响外,还跟音箱的音频信号质量直接相关。同样的算法库,音频信号质量越好,其唤醒率和识别率越高。根据工作经验,目前各厂家对智能音箱音频信号的判断标准,主要有以下几项:
定义:
时延(Delay),指音频各通道间接收同一信号的时间差。时延稳定性,指规定时间范围内,时延值保持稳定的能力。
解释:
在智能音箱领域,时延值通常指MIC信号和REF信号之间的时间差。当扬声器发出一个信号时,REF通道同时接收到该信号,该信号经空气传播至MIC孔处,MIC孔接收到该信号。由于扬声器和MIC有固定距离,所以MIC接收到该信号会晚于扬声器播放该信号,这个时间差就是时延。
影响:
时延稳定通常是由于电路丢数据或时钟波动导致。从算法角度讲,时延不稳定会影响算法收敛。时延值过大也会影响算法信号处理的效率。另,时延值不可能为负值,这是不科学的,因为不可能扬声器还未发出信号,MIC就收到了信号。
定义:
回声消除(Acoustic Echo Cancellation,AEC),指输出信号从扬声器发出,经过空气传播,被设备本身的MIC接收,最后在MIC信号中减去该输出信号的过程。
解释:
MIC接收到的信号中,除了人声的唤醒音,还有设备本身播放的声音。对于算法来讲,人声唤醒音是想要得到的有效音,设备发出的声音是干扰音。回声消除就是将有效音从干扰音中剥离出来的过程。将干扰音消除后,算法才能正确识别唤醒词,从而实现语音唤醒设备,这个过程叫做打断唤醒或自噪唤醒。
影响:
回声消除后有效音占比越大,打断唤醒率越高。算法中使用互相关来进行回声消除,通常来讲,MIC信号和REF信号的相似度越大,越容易进行互相关抵消,回声消除数值越高,打断唤醒效果越好。
定义:
相干性(Coherence),指两个变量之间的相关程度。在智能音箱领域,通道用该值来验证各MIC信号和REF信号的相似程度。
解释:
声音信号从扬声器发出后,会经过前腔、导音锥、声孔、网布、音箱壳体、MIC收音孔等路径。这个过程中,每个环节都会增加信号的失真度。所以,MIC信号和REF信号的相干性,就是所有变量的叠加。如何保证MIC信号和REF信号的相似度,是智能音箱行业声学工程师最主要的工作内容之一。
影响:
系统相干性越好,说明MIC信号和回采信号的相似度越高,回声消除效果越好。同理,相干性通常用REF信号跟各个MIC信号之间做比较,即同样可以用于检测各MIC通道的信号一致性。如下图,6个MIC通道间中低频信号一致性非常好。
定义:
信噪比(signal-noise ratio,SNR),指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率。
解释:
智能音箱测信噪比的方法通常和测MIC单体的方法一样,都是播放1kHz正弦波信号,在MIC处保持94dBA的声压级,来看MIC录到的音频的平均振幅值和无信号输入时的平均振幅之差。智能音箱信号的底噪通常来自电路噪声,这个和厂家的电路设计水平有关。
影响:
MIC系统信噪比会影响录到信号的纯净度,信噪比过低,会导致降噪算法计算量增大,同时也不利于语音识别算法的信号处理过程,识别率会降低。
定义:
灵敏度(Sensitivity),即模拟输出电压或数字输出值与输入压力之比。麦克风灵敏度一般在94dB的声压级(SPL)(或者1帕(Pa)压力)下,用1kHz正弦波进行测量。麦克风在该输入激励下的模拟或数字输出信号幅度即是衡量麦克风灵敏度。
解释:
MIC系统灵敏度通常用dBFS表示,即播放满幅信号,看MIC的实际灵敏度表现。如下图所示,MIC的实际灵敏度在-12dBFS左右,属于振幅比较大的范围。通常MIC单体的灵敏度在-26~-38dBFS左右,硅麦的信号在送入CPU后会对信号进行放大。
影响:
算法要求,在不截幅的情况下,MIC振幅越大越好,振幅越大越有利于识别信号处理。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。