【AM】Non-Attentive Tacotron_non-attentive tacotron: robust and controllable ne

作者：知新_RL | 2024-04-05 14:01:59

踩

non-attentive tacotron: robust and controllable neural tts synthesis includi

Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling

1. Model
2. Experiments
- 2.1 Naturalness
- 2.2 Robustness

本文提出了Non-Attentive Tacotron（NAT），基于Tacotron2但是把Decoder与Encoder之间的Attention机制替换成了显式的时长预测。NAT可以用时长标注训练，也可以使用一个细粒度的VAE以无监督或半监督的形式训练。当使用时长标注可以获得时，NAT自然度比Tacotron2稍好一点，但是在稳定性方面，NAT相比Tacotron2有了很大的提升。
本文的主要贡献：

提出了Non-Attentive Tacotron架构，用时长预测和上采样模块替换了原本tacotron2中的attention机制，在自然度相当的前提下明显提升了鲁棒性；
无监督或者半监督的时长训练方式，允许模型用较少的时长标注；
提出了更多的评估指标：unaligned duration ratio (UDR)和ASR word deletion rate (WDR)，可以应用大规模的数据对TTS鲁棒性进行评估；
引入高斯上采样提升了合成音频的音质；
支持全局和细粒度的时长控制；

1. Model

模型结构如下图所示。Duration预测模块对encoder的输出上采样，与fastspeech中的直接复制同，本文采用了高斯上采样，在计算loss时，duration以秒为单位，在上采样用到duration时，他们被转换成帧；
在这里插入图片描述

1.1 Gaussian upsampling

高斯上采样过程需要每个token的时长和range parameter。range parameter表示的是当前token的影响范围；duration表示的是当前token持续的时长；二者决定了当前token高斯上采样的分布。上采样结束后，会经过一个transformer中用到的sinusoidal positional embedding。上采样过程如下图所示：
在这里插入图片描述
高斯上采样的好处主要在于他是一个可微的操作，对半监督和无监督的时长模型非常关键，保证梯度可以从mel loss最终流到duration predictor。

1.2 Training loss

训练过程中，loss包括mel loss和duration loss；其中mel loss包括了postnet之前和之后的mel与target mel的L1和L2 loss，duration loss是L2 loss。
在这里插入图片描述

1.3 Unsupervised and semi-supervised duration modeling

一个简单的想法是将duration predictor预测出的duration（而不是真实的duration）用于训练，用一个scale调节duration的和与mel length mismatch，然后再补充一个duration的和与mel length 的loss即可。但是文中说这种方法没有生成令人满意的自然度的语音。最终采用的结构如下图所示。
在这里插入图片描述

2. Experiments

2.1 Naturalness

与GMMA Tacotron2相比，NAT稍好一点。

在这里插入图片描述

2.2 Robustness

鲁棒性有明显提升。
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/366054