【深度学习】【语音】TTS，Phoneme-Level BERT (PL-BERT)，抛弃词级别或超语素级别的预训练模型!

作者：IT小白 | 2024-08-06 21:30:16

踩

这篇文章的技术重点是提出了一种名为**Phoneme-Level BERT (PL-BERT)**的新模型，用于增强文本到语音（Text-to-Speech，TTS）合成中的韵律，通过语素预测来提高合成语音的自然度。

语素级别的BERT模型：
- 现有的TTS模型通常使用的是词级别或超语素级别的预训练模型，这些模型在实际TTS任务中效率不高，因为TTS任务只需要语素作为输入。PL-BERT专门在语素级别进行预训练，避免了其他复杂的字符或超语素级别表示，提升了模型的训练和推理效率。
联合预测语素和字母表：
- 该模型在预训练任务中，不仅进行掩码语素的预测，还同时预测对应的字母表（graphemes）。这种联合预测任务使模型能够学习更丰富的语素与语义之间的关系，从而提升下游TTS任务的性能。
提升语音合成自然度：
- 通过主观评价，PL-BERT显著提升了合成语音的自然度，尤其在分布外（out-of-distribution, OOD）的文本上，相比于现有的最先进的StyleTTS基准模型，PL-BERT在自然度评分（MOS）上表现更好。
简化模型输入：
- P

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/939373