当前位置:   article > 正文

语音识别之Fbank特征提取工具的比较(kaldi、python_speech_features、torchaudio)_c++ 提取kaldi中的fbank

c++ 提取kaldi中的fbank

首先,提取fbank特征的大致步骤为:预加重、分帧、加窗、FFT、Mel滤波器组、对数运算。(加上DCT离散余弦变换就得到MFCC特征)。

一、python_speech_features提特征源码:
在这里插入图片描述
从源码研究,python提fbank特征的接口python_speech_features的工作流程为:
1、**signal = sigproc.preemphasis(signal,preemph)**为预加重,系数 a=0.97;预加重其实就是将语音信号通过一个高通滤波器:y(t)=x(t)-ax(t-1);
在这里插入图片描述

2、**frames = sigproc.framesig(signal, winlensamplerate, winstepsamplerate, winfunc)**为分帧加窗(

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/159993
推荐阅读
相关标签
  

闽ICP备14008679号