赞
踩
G&L(griffin-lim)算法是一种已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形的方法。其实语音合成汇总常常使用的MEL-spectrum 和 linear-spectrum里面节缺少相位信息。
griffin-lim是一种声码器,常用于语音合成,用于将语音合成系统生成的声学参数转换成语音波形,这种声码器不需要训练,不需要预知相位谱,而是通过帧与帧之间的关系估计相位信息,从而重建语音波形。
声码器是一种将声学参数转换成语音波形的工具。griffin-lim是一种较为经典的声码器,算法简单,高效。
另外较多使用的vocoder有: WORLD, STRAIGHT及其变种; WaveNet,一种可训练的基于深度神经网络的声码器,可生成高质量的语音波形,但是为了扩展其感受野,速度慢且复杂度高;WaveRNN, 另一种可训练的基于深度神经网络的声码器,可生成高质量高保真的语音波形, 速度相较于WaveNet有提升,在使用折叠并且硬件较充足的条件下,合成速度较快;LPCNet, 是一种新提出的可使用CPU即可实现重建波形的vocoder,主要思想是,语音是线性信号和非线性信号的有机组合,而DSP(数字信号处理)技术足以胜任其中的线性信号运算,非线性信号的处理可以交给神经网络学习得到,这种声码器速度得到了极大的提升,有望于应用于移动端。
另有较为常用的声码器及其变种, 如Multiband-WaveRnn, Parallel WaveNet, WaveGlow, FlowWaveNet, Parallel WaveGan, MelGan, MB-MelGAN
语音合成一般需要进行前端处理,时长模型训练,声学模型训练,最后输出声学参数。对于端到端的语音合成系统而言,一般将大部分前端、时长模型和声学模型整合成了一个模型,直接建立输入文本与输出声学参数之间的映射关系。
语音合成的数据准备第一步,一般都是语音参数的提取。用于语音合成中的语音参数(声学参数)一般有MEL谱, MFCC, F0(基频), pitch, voice/unvoice, BAP(一种非周期型特征?)等等。端到端的语音合成系统较多的使用MEL谱。
一般的提取过程为:
使用 <text, audio>对训练声学模型。对于汉语,text一般指的是带声调的拼音文本,audio一般指的是使用上述步骤得到的MEL谱。
griffin-lim重建语音信号需要使用到幅度谱和相位谱。而MEL谱当中是不含相位信息的,因此griffin-lim在重建语音博形的 时候只有MEL谱可以利用,但是通过一些运算,我们可以利用帧与帧之间的关系估计出相位信息,从而重建语音波形。
这里的MEL谱可以看做是实部,而相位信息可以看做是虚部,通过对实部和虚部的运算,得到最终的结果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。