赞
踩
模型结构如下图所示。Duration预测模块对encoder的输出上采样,与fastspeech中的直接复制同,本文采用了高斯上采样,在计算loss时,duration以秒为单位,在上采样用到duration时,他们被转换成帧;
高斯上采样过程需要每个token的时长和range parameter。range parameter表示的是当前token的影响范围;duration表示的是当前token持续的时长;二者决定了当前token高斯上采样的分布。上采样结束后,会经过一个transformer中用到的sinusoidal positional embedding。上采样过程如下图所示:
高斯上采样的好处主要在于他是一个可微的操作,对半监督和无监督的时长模型非常关键,保证梯度可以从mel loss最终流到duration predictor。
训练过程中,loss包括mel loss和duration loss;其中mel loss包括了postnet之前和之后的mel与target mel的L1和L2 loss,duration loss是L2 loss。
一个简单的想法是将duration predictor预测出的duration(而不是真实的duration)用于训练,用一个scale调节duration的和与mel length mismatch,然后再补充一个duration的和与mel length 的loss即可。但是文中说这种方法没有生成令人满意的自然度的语音。最终采用的结构如下图所示。
与GMMA Tacotron2相比,NAT稍好一点。
鲁棒性有明显提升。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。