赞
踩
这是一篇论文阅读的笔记资料,欢迎提出意见。本文的介绍,不可能比原作者的话还要准确、到位,所以贴一下文章摘要:
病理语音具有强烈的非平稳性和突变性特点。S变换具有良好的时频分辨率和时频定位能力。本文在S变换基础上结合人耳听觉的Mel特性,提出一种能够突出发声器官病变的病理语音特征MSCC(Mel S-Transform Cepstrum Coefficients)。在NCSC语料库上,通过与经典语音倒谱特征 MFCC和当前常用声学特征的对比,看到MSCC特征对语音中动态、快变的病理信息具有更强的刻画能力。此外,选用F-Score 方法对特征进行评价和采用粒子群方法进行特征筛选,MSCC表现出了更好的分类性能。可见,MSCC特征为病理语音的高精准分析与临床诊断提供了理论基础。
英文摘要:
Abstract:Pathological speech is non-stationary and mutation, the S transform has good time-frequency resolutionand time-frequency position capability. In this paper, S transform is combined with the human auditory Mel char-acteristics, MSCC (Mel S-Transform Cepstrum Coefficients) is proposed which highlight the vocal organs patho-logical lesions. MSCC is compared with the classical MFCC and current commonly acoustic characteristics inNCSC corpus, MSCC has a stronger ability to portray the dynamic and quickly pathological speech information.In addition, MSCC has also better classification performance by F-Score method to evaluate and particle swarmoptimization algorithm to feature selection. Therefore, MSCC provides high precision analysis for pathologicalspeech and theoretical basis in clinical diagnosis.
S变换是由 Stock Well 于 1996 年首次提出的一 种时频分析方法,可以看作是短时傅里叶变换和小波变换的结合。
S变换具有了短时傅里叶变换和小波变换的优点, 能够精细化病理语音的时频结构,非常适合于病理语音的非平稳、动态、快变信号的特征量提取。
S变换的定义:
公式符号解释:
时间复杂度o(N^2logN),这个复杂度比较高~~
更多详细内容,请关注我的另一篇博文。
1 Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient):缩写是MFCC,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。
2 Mel频率:是模拟人耳对不同频率语音的感知。
人类对不同频率语音有不同的感知能力:对1kHz以下,与频率成线性关系,对1kHz以上,与频率成对数关系。频率越高,感知能力就越差了。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。
在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。 转换公式:B(f)=1125ln(1+f/700) 其中 f 为频率,B为Mel频率。
具体过程:傅里叶变换----->对数运算----->傅里叶反变换。
倒谱和梅尔(Mel)频率倒谱的区别:梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。
MSCC,全称 Mel S-Transform Cepstrum Coefficients,和MFCC相比就差了一个单词,将F改成了S,用的是S变换,本质改了。【MSCC是对原有MFCC特征的改进,MFCC特征的提取是在假设声音信号短时平稳的条件下,通过对固定窗内的语音信号实施短时傅里叶变换和MEL频率分割而获得的倒谱特征。】【又一次复习了MFCC。=_=#】
优势:MSCC 特征能很好地表征音频信号的动态特性,尤其是病理改变特征。
提取算法的步骤:
1)确定输入为:采样时间序列x[n],帧长FrameLen,输出为:MSCC特征C1,C2,······,CL
2)分帧:对x[n]以FrameLen进行分帧
3)S变换:对分帧后的时间序列按式(5),(6)进行S变换,得到S变换矩阵S
4)求能量谱:对S矩阵各个元素求模,得到S模矩阵|S|,其对应于频谱,并对频谱求平方,得到能量谱
5)带通滤波:构造由M个三角滤波器构成的滤波器组,在这里M为26个,滤波器组覆盖从0 Hz到采样率的二分之一,中心频率f(m)在Mel尺度上是等间距分隔的,f(m)的定义如下:
公式符号解释:
计算每一时刻每个滤波器组输出的对数能量为:
公式符号解释:
6)离散余弦变换(DCT):按下式将其映射到倒谱域,求得L个MSCC系数
内容来自:谷震平的博客,希望尊重版权,尊重原创。
链接:http://blog.csdn.net/guzhenping
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。