赞
踩
Deep Voice3是由百度提出的一个全新的全卷积TTS架构。百度的主要工作分为如下五个方面:
Deep Voice3能够将各种文本特征(如字符、音素、重音)转换为各种声码器参数,如梅尔谱、线性对数谱、基频、频谱包络等。这些声码器参数可用作波形合成模型的输入
Deep Voice3架构包括3个组件:
优化的目标是解码器和转换器损失的线性组合。作者将解码器和转换器分开并应用于多任务训练,因为这样可以使得实践中注意力更好的学习。具体来说的话,梅尔谱预测的损失指导了注意力机制的训练,因为注意力的训练利用了梅尔谱预测以及声码器参数预测的梯度
该卷积块包含一个一维卷积滤波器,一个门控可学习的非线性单元,一个残差连接,以及一个缩放因子 0.5 \sqrt{0.5} 0.5 。为了引入说话人的相关特征,在经过softsign激活函数之后,将说话人特征作为偏置添加到卷积滤波器的输出。卷积块中使用标准正态分布初始化卷积滤波器的权重
Softsign函数:
y = F ( x ) = x 1 + ∣ x ∣ . y=F(x)=\frac{x}{1+|x|}. y=F(x)=1+∣x∣x.
编码器网络首先从文本编码开始,将字符或音素转换为可训练的向量表示 h e h_e he。然后将 h e h_e he送入全连接层以投影到目标维度。PreNet得到的输出再送入一系列卷积块,以提取时间相关的文本信息。最后,它们被投影回Text Embedding维度以创建注意力键向量 h k h_k hk。从注意力键向量和文本嵌入计算注意力值向量 h v = 0.5 ( h k + h e ) h_v=\sqrt{0.5}(h_k+h_e) hv=0.5 (hk+he),以联合考虑 h e h_e he中的局部信息和 h k h_k hk中的长时上下文信息。键向量 h k h_k hk被各个注意力块用来计算注意力权重,而最终的上下文向量被计算为值向量 h v h_v hv的加权平均
解码器以自回归的模式预测接下来的r (r>1) 帧梅尔谱。由于不能利用后面时刻的数据,所以解码器采用的是causal convolution或者也叫做masked convolution
梅尔谱数据先经过PreNet,然后通过casual convolution层将其变为query矩阵。再与Encoder的输出的Key和Value矩阵进行attention运算。如此积累多层,最后经过全连接层预测接下来的r帧梅尔谱,并且还会预测是否该停止预测(类似于Tacotron2)。损失函数是L1 Loss及交叉熵
Attention模块就是大家熟知的传统点积计算方法,先用query矩阵与key矩阵计算attention权重,然后再对value矩阵加权求和,得到context向量。此外,attention block还引入了位置编码
h
p
(
i
)
h_p(i)
hp(i)帮助文本和频谱进行对齐
h
p
(
i
)
=
s
i
n
(
w
s
i
/
1000
0
k
/
d
)
,
i
=
0
,
2
,
4
,
.
.
.
h
p
(
i
)
=
c
o
s
(
w
s
i
/
1000
0
k
/
d
)
,
i
=
1
,
3
,
5
,
.
.
.
h_p(i)=sin(w_si/10000^{k/d})\ ,i=0,2,4,...\\ h_p(i)=cos(w_si/10000^{k/d})\ ,i=1,3,5,...
hp(i)=sin(wsi/10000k/d) ,i=0,2,4,...hp(i)=cos(wsi/10000k/d) ,i=1,3,5,...
其中,
i
i
i是时间步索引,
k
k
k是位置编码中的通道索引,
d
d
d是位置编码中所有通道的数量,
w
s
w_s
ws是编码的位置率。位置率决定了注意力分布中线的平均斜率,大致对应于语速。对于单说话人,query中的
w
s
w_s
ws被固定为1,key中的
w
s
w_s
ws被固定为输入时间步与输出时间步之比;对于多说话人,
w
s
w_s
ws通过每个说话人嵌入进行计算(下图左边)
详细流程如下图所示
在翻译场景中,源语言句子和目标语言句子中词的对应顺序并不是严格单调的,而在语音合成中,语音是按照文本顺序读出来的,所以对齐关系会更严格
转换器网络将解码器的最后隐藏层的输出作为输入,转换器包含若干非因果卷积块,然后预测下游声码器的参数。与解码器不同,转换器是非因果和非自回归的,因此它可以使用解码器的未来信息进行预测。转换器有很多种,可以使用Griffin-fim或者wavenet等,当然,采用wavenet的效果会好一些。整个模型框架如下
Deep Voice3模型由于采用全卷积而非GRU来提取文本及频谱特征,可以大幅提高训练时GPU的利用率,相同的batch size下,速度是Tacotron的10倍。并且达到收敛所需的步数也只是Tacotron的1/4。在加入monotonic attention后,合成语音的自然语也有所提高
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。