当前位置:   article > 正文

梅尔频谱和梅尔倒谱的初次理解和使用_melspectrogram的n_fft代表什么

melspectrogram的n_fft代表什么

在音频的特征提取中,经常会用到梅尔频谱和梅尔倒谱
这里记录一下librosa.feature.melspectrogram和librosa.feature.mfcc的区别

首先这里给出两个API的官方定义

def melspectrogram(
    y=None,
    sr=22050,
    S=None,
    n_fft=2048,
    hop_length=512,
    win_length=None,
    window="hann",
    center=True,
    pad_mode="reflect",
    power=2.0,
    **kwargs,
):
y:输入时域下的音频信号。shape= (n,)
sr:采样频率
n_fft:FFT窗口个数,默认2048
hop_length:连续帧之间的采样数,默认512
window:使用加窗的类型,默认为汉宁窗
return:梅尔频谱


def mfcc(
    y=None, 
    sr=22050, 
    S=None, 
    n_mfcc=20, 
    dct_type=2, 
    norm="ortho", 
    lifter=0, 
    **kwargs
):
y:输入时域下的音频信号
sr:采样频率
n_mfcc:返回mfcc特征的数量
dct_type:DCT(离散余弦变换)的类型,默认为2
return:返回mfcc特征序列,这里主要设置sr和n_mfcc(你要提取特征的个数)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36

首先,返回不同,一个是梅尔频谱,一个是梅尔倒谱

输入语音信号->

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/325011
推荐阅读
相关标签
  

闽ICP备14008679号