AI大语音（二）——语音预处理（深度解析）_语音识别预处理的步骤的作用

作者：AllinToyou | 2024-03-21 03:51:27

踩

语音识别预处理的步骤的作用

本文来自公众号“AI大道理”。

这里既有AI，又有生活大道理，无数渺小的思考填满了一生。

1 预滤波

CODEC（所谓Codec，就是编码-解码器“Coder-Decoder”的缩写。说得通俗一点，对于音频就是A/D和D/A转换。）前端带宽为300-3400Hz（语音能量主要集中在250~4500Hz）。的抗混叠滤波器。

工程测量中采样频率不可能无限高也不需要无限高，因为一般只关心一定频率范围内的信号成份。为解决频率混叠，在对模拟信号进行离散化采集前，采用低通滤波器滤除高于1/2采样频率的频率成份。实际仪器设计中，这个低通滤波器的截止频率(fc) 为：

　　截止频率（fc）= 采样频率（fs） / 2．56

2 A/D转化

8kHz的采样频率，12bit的线性量化精度。

一段3.5秒的语音，经过A/D转化后共28000个点的数据。

signal: [ -919 -1314 -1049 ..., 148 136 120]

一帧25毫秒的语音，经过A/D转化后共200个点的数据。

3 预加重

为什么要预加重？

目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。因为高频端大约在800Hz以上按6dB/oct (倍频程)衰减，频率越高相应的成分越小，为此要在对语音信号进行分析之前对其高频部分加以提升。

一般通过传递函数为高通数字滤波器来实现预加重，其中a为预加重系数，0.9<a<1.0。设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n)）=x(n)-ax(n-1),这里取a=0.97。

传递函数为：

经过预加重后整体语音信号和一帧语音时域效果：

emphasized_signal: [-919. -422.57 225.58 ..., -12.05 -7.56 -11.92]

-1314-0.97*(-919)=-422.57

预加重后的语音信号频域效果对比：

4 分帧

傅里叶变换要求输入信号是平稳的，但是语音信号从整体上来讲是不平稳的，嘴巴一动，就game over，如果把不平稳的信号作为输入，傅里叶变换将无意义。虽然语音信号具有时变特性，但是在一个短时间范围内（一般认为在10~30ms），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。，因此我们需要将语音信号进行分帧处理。

分帧一般采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性。前一针和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0~1/2。

取一帧25毫秒的语音。

帧长：0.025*8KHZ=200

帧移：80

帧数：（28000-200）/80=347.5，取348帧。

补零：348*80+200=28040

28040-28000=40

多出40要补0，填充信号以确保所有帧具有相同数量的样本，而不会截断原始信号中的任何样本。

5 加窗

加窗的目的是可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其实加窗相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积。用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)；以汉明窗举例如下：

汉明窗函数如下：