赞
踩
1. 最基本那肯定是STFT,说白了就是FFT加窗。有人肯定说这不算是feature,因为这是raw data,但是现在深度学习已经越来越多的使用这种raw data作为“feature” 输入到网络让模型自己学习其中的特征。其物理含义也十分明确:就是把时间信号转换为时间-频率的信号,根据FFT的窗长和选择的窗函数来决定时间-频率分辨率的tradeoff。说白了就是直接让你看每一段时间内的频率成分。从人类感知的角度来说,在连续的声音中人耳感知和分析的是短时间的一段段信号,所以这也是使用STFT的一个原因。
2. 在FFT的基础上还有一个叫constant Q transform (CQT)。使用FFT进行频率分析中的频率是线性的,但人耳感知频率却不是线性的,也就是说人耳对某些频段要比其他频段敏感:对频率的感知敏感度大体符合一个对数分布;对比较低频率的敏感度(或者区分度)比较高,越高频率敏感率越低,CQT就是按照这个原理在FFT的基础上进行对数压缩,使结果更逼近人耳的感知。
3. 频率质心 (Spectral centroid),这个比较容易理解,就说对于整个频率带去一个几何平均值,作用类似于物理上的质量之心:用一个点来代表整个质量。这个同理,用一个频率来代表整个频率带,比如一段声音主要是高频成分的频率质心就比较高。这个值一般和声音的亮度有关。
4. Spectral rolloff: 这个是一种频率带宽的度量; spectral spread: 这个是表征瞬时的频率带宽的,数学上其实是对于在频率质心处取了一个导数。
5. Spectral flux: 一种频率变换率的度量
6.Spectral decrease: 表征随着能量值随着频率变化而变化的程度
7.Spectral slope, skewness, kurtosis... 有兴趣的可以自己查查,都是频率的一些统计特征,个人感觉用的不算多。
8. 各种倒谱特征,最有名的当属MFCC,但MFCC是属于比较高级别的特征,所以其具体的物理含义没有像以上的特征直白好理解。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。