当前位置:   article > 正文

【深度学习】【语音TTS】vits 论文,Variational Inference Text-to-Speech(1)

【深度学习】【语音TTS】vits 论文,Variational Inference Text-to-Speech(1)

代码:https://github.com/jaywalnut310/vits
论文:https://arxiv.org/abs/2106.06103

摘要

最近提出了几种支持单阶段训练和并行采样的端到端文本到语音(TTS)模型,但其样本质量不如两阶段TTS系统。在这项工作中,我们提出了一种并行端到端TTS方法,其生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推理,并结合了正规化流和对抗训练过程,提高了生成模型的表达能力。我们还提出了一个随机时长预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机时长预测器,我们的方法能够表达文本输入可以以多种方式、不同音高和节奏发音的自然一对多关系。在LJ Speech(单一说话人数据集)上的主观人类评估(平均意见得分,MOS)显示,我们的方法优于当前最好的公开TTS系统,并且达到了与真实音频相当的MOS。

1. 引言

文本到语音(TTS)系统通过若干组件从给定文本合成原始语音波形。随着深度神经网络的快速发展,TTS系统流水线已简化为两个阶段的生成建模,除了文本预处理如文本规范化和音素化。第一阶段是从预处理的文本生成中间语音表示,如mel-spectrogram(Shen et al., 2018)或语言特征(Oord et al., 2016),第二阶段是生成以中间表示为条件的原始波形(Oord et al., 2016;Kalchbrenner et al., 2018)。每个两阶段流水线的模型是独立开发的。

基于神经网络的自回归TTS系统已经展示了合成逼

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/924830
推荐阅读
相关标签
  

闽ICP备14008679号