当前位置:   article > 正文

音频特征_音频有哪些特征

音频有哪些特征

1. 最基本那肯定是STFT,说白了就是FFT加窗。有人肯定说这不算是feature,因为这是raw data,但是现在深度学习已经越来越多的使用这种raw data作为“feature” 输入到网络让模型自己学习其中的特征。其物理含义也十分明确:就是把时间信号转换为时间-频率的信号,根据FFT的窗长和选择的窗函数来决定时间-频率分辨率的tradeoff。说白了就是直接让你看每一段时间内的频率成分。从人类感知的角度来说,在连续的声音中人耳感知和分析的是短时间的一段段信号,所以这也是使用STFT的一个原因。

2. 在FFT的基础上还有一个叫constant Q transform (CQT)。使用FFT进行频率分析中的频率是线性的,但人耳感知频率却不是线性的,也就是说人耳对某些频段要比其他频段敏感:对频率的感知敏感度大体符合一个对数分布;对比较低频率的敏感度(或者区分度)比较高,越高频率敏感率越低,CQT就是按照这个原理在FFT的基础上进行对数压缩,使结果更逼近人耳的感知。

3. 频率质心 (Spectral centroid),这个比较容易理解,就说对于整个频率带去一个几何平均值,作用类似于物理上的质量之心:用一个点来代表整个质量。这个同理,用一个频率来代表整个频率带,比如一段声音主要是高频成分的频率质心就比较高。这个值一般和声音的亮度有关。

4. Spectral rolloff: 这个是一种频率带宽的度量; spectral spread: 这个是表征瞬时的频率带宽的,数学上其实是对于在频率质心处取了一个导数。

5. Spectral flux: 一种频率变换率的度量

6.Spectral decrease: 表征随着能量值随着频率变化而变化的程度

7.Spectral slope, skewness, kurtosis... 有兴趣的可以自己查查,都是频率的一些统计特征,个人感觉用的不算多。

8. 各种倒谱特征,最有名的当属MFCC,但MFCC是属于比较高级别的特征,所以其具体的物理含义没有像以上的特征直白好理解。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/324965
推荐阅读
相关标签
  

闽ICP备14008679号