当前位置:   article > 正文

使用Sbert预训练的TTS模型《Expressive Text-to-Speech using Style Tag》_tts模型训练

tts模型训练

0)在这一个多月的论文阅读和代码复现的过程中,大多数论文都是从Mel频谱下手获得更解离的、更具有解释性的信息,如pitch,speaker ID和emotion等,但是从文本中获取信息的只占少部分,最近看到一篇关于BERT预训练的TTS论文,所以在这里做一下记录。

1)论文照例先阐述一下当前研究方向的一些缺点
①利用风格分类标签如感情标签等,但是由于只能预定义样式,所以表达多样性较差
②使用参考音频提取特征作风格输入,这样虽然不需要标记,但是合成的音频时间长且不直观,解释性差

2)然后文章提出style tag,它是一个简短的短语或者是词,代表一个话语的风格,如情感、意图和语调。由于style在自然语言中是有标记的,所以tag对控制style具有直观性和可解释性。
其实这样的tag是很符合我们的说话习惯的,我们特定副词/形容词的使用和表达性(Expressive)关系是很大的,例如我们的话中有激动地XXX或者沉痛地XXX时,副词地使用都会符合我们当前的表达。
在这里插入图片描述
所以模型使用训练好的语言模型将自然语言转为样式标签,建模了风格域和语言嵌入之间的关系
模型采用SBERT作为预训练语言模型,Sentence BERT使用对比学习去优化句子层次之间的相似性,所以在相似度度量和聚类上具有更好的效果。它可以将style tag映射到一个有意义的不存在集外词问题的空间, 这样也就支持了模型的泛化能力,这里把style tag当作了简短的句子来看待。在这里插入图片描述
3)训练数据集的结构:{speech, transcript, style tag}
Style encoder由两部分组成:参考编码器+style tag编码器

Reference encoder的结构和GST相似,不同之处在于此处不使用Style token//batch normalization被替代为weight normalization。

Style tag encoder(MES loss)由Sbert(transforms style tag to semantic embedding语义嵌入)和adaptation(3*linear layers +RELU,map from linguistic semantic space to style embedding space)组成

文章还表述了双模组成style encoder的优点:
① 通过建立style tag和参考语的双模嵌入空间,可以利用风格标记和参考语提取风格嵌入进行推理
② style tag embedding是具有相同tag的参考音频的锚定,这意味着reference encoder可以学习具有相同tag的reference audio的簇
由于参考编码器在嵌入空间中邻接映射具有相似说话风格的语音,具有相似意义style tag也在嵌入空间中紧密定位。Adaptation很容易学习风格域和语言域之间的关系
在training时冻结Sbert然后使用TTS损失和style embedding loss对其他components进行优化
在这里插入图片描述
4)text的部分的处理分为三部分:text encoder+aligner+duration predictor
text encoder:获取grapheme返回一个文本嵌入序列。
aligner:文本和mel的对齐,并返回每个grapheme的持续时间,并且只考虑文本和语音的对齐。
duration predictor:以对数比例预测每个grapheme的帧数,由于不同的style产生不同的语速,时长预测器也采用style embedding的方法来预测style相关的时长。style embedding被复制到相同长度的文本嵌入中。

最后将扩展持续时间的文本转换为以style embedding为条件的对数mel谱图完成音频的合成

5)模型的损失组成:
① 预测的mel和真实的对数mel谱的平均绝对误差(MAE mean-absolute-erro)
② duration predictor和aligner获得的log duration的huber误差 链接: link.
③ 训练对齐器的负对数似然损失
④ 参考编码器和style tag编码器的样式嵌入之间的MSE丢失

下图是合成的训练效果 蓝色为seen 红色为unseen,从图中看,泛化性能很好,从text中学到的信息可以提高合成的效果
在这里插入图片描述
在这里插入图片描述
5)最后的总结
改进点:
1)由于风格标签是用自然语言编写的,用户可以通过ST-TTS直观地控制生成语音的风格。在语言模型中,SBERT使ST-TTS能够表达训练过程中unseen的style tag。
2)ST-TTS具有参考语和风格标记的双模嵌入空间,因此可以使用参考风格标记或参考语进行推理。
3)ST-TTS是一个非自回归TTS模型,可以在单阶段进行训练。因此,ST-TTS易于训练,生成速度快

不足之处在于style tag虽然相较于GST有了更好的直观性和可解性性,但是在数据集中应该尽可能多的扩充style tag达到更好的效果,其次,一个句子的风格可能有多个tag的风格,这也是未来的研究方向之一。

小结
Ⅰ 原来我也看过类似的利用BERT的论文,但是当时对文本信息的利用不够透彻【6】链接: link.
Ⅱ 论文提供的音频试听地址:链接: link.
Ⅲ 估计以后的时间会重点关注此类预训练模型的结合。over

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/278308
推荐阅读
  

闽ICP备14008679号