赞
踩
语音是非平稳信号,通过分帧可以认为每帧信号近似为平稳信号,然后就可以在一帧上提取特征。这种就叫做帧级别特征。segmental level的特征应该是指多帧特征,比如音素特征就是segmental level的,而utterance level的就是指一句话上的特征,就有很多帧,例如说话人的特征就是utterance level的。