语音识别之Fbank特征提取工具的比较（kaldi、python_speech_features、torchaudio）_c++ 提取kaldi中的fbank

作者：IT小白 | 2024-02-28 15:59:48

踩

c++ 提取kaldi中的fbank

首先，提取fbank特征的大致步骤为：预加重、分帧、加窗、FFT、Mel滤波器组、对数运算。（加上DCT离散余弦变换就得到MFCC特征）。

一、python_speech_features提特征源码：
在这里插入图片描述
从源码研究，python提fbank特征的接口python_speech_features的工作流程为：
1、**signal = sigproc.preemphasis(signal,preemph)**为预加重，系数 a=0.97；预加重其实就是将语音信号通过一个高通滤波器：y(t)=x(t)-ax(t-1)；

2、**frames = sigproc.framesig(signal, winlensamplerate, winstepsamplerate, winfunc)**为分帧加窗(

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/159993