当前位置:   article > 正文

【深度学习】【语音】TTS,Phoneme-Level BERT (PL-BERT),抛弃词级别或超语素级别的预训练模型!

【深度学习】【语音】TTS,Phoneme-Level BERT (PL-BERT),抛弃词级别或超语素级别的预训练模型!

https://github.com/yl4579/PL-BERT

这篇文章的技术重点是提出了一种名为**Phoneme-Level BERT (PL-BERT)**的新模型,用于增强文本到语音(Text-to-Speech,TTS)合成中的韵律,通过语素预测来提高合成语音的自然度。

技术亮点及优势

  1. 语素级别的BERT模型

    • 现有的TTS模型通常使用的是词级别或超语素级别的预训练模型,这些模型在实际TTS任务中效率不高,因为TTS任务只需要语素作为输入。PL-BERT专门在语素级别进行预训练,避免了其他复杂的字符或超语素级别表示,提升了模型的训练和推理效率。
  2. 联合预测语素和字母表

    • 该模型在预训练任务中,不仅进行掩码语素的预测,还同时预测对应的字母表(graphemes)。这种联合预测任务使模型能够学习更丰富的语素与语义之间的关系,从而提升下游TTS任务的性能。
  3. 提升语音合成自然度

    • 通过主观评价,PL-BERT显著提升了合成语音的自然度,尤其在分布外(out-of-distribution, OOD)的文本上,相比于现有的最先进的StyleTTS基准模型,PL-BERT在自然度评分(MOS)上表现更好。
  4. 简化模型输入

    • P
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号