语音合成：Tacotron详解【端到端语音合成模型】【与传统语音合成相比，它没有复杂的语音学和声学特征模块，而是仅用＜文本序列，语音声谱＞配对数据集对神经网络进行训练，因此简化了很多流程】

作者：我家小花儿 | 2024-03-17 08:23:02

踩

tacotron

Tacotron模型是首个真正意义上的端到端TTS深度神经网络模型。与传统语音合成相比，它没有复杂的语音学和声学特征模块，而是仅用<文本序列，语音声谱>配对数据集对神经网络进行训练，因此简化了很多流程。然后Tacotron使用Griffin-Lim算法对网络预测的幅度谱进行相位估计，再接一个短时傅里叶（Short-Time Fourier Transform，STFT）逆变换，实现端到端语音合成的功能。Tacotron的总体架构如下图：

在这里插入图片描述

参考资料：
Tacotron以及Tacotron2详解
 语音合成(一)：Tacotron

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/255076