赞
踩
https://github.com/yl4579/PL-BERT
这篇文章的技术重点是提出了一种名为**Phoneme-Level BERT (PL-BERT)**的新模型,用于增强文本到语音(Text-to-Speech,TTS)合成中的韵律,通过语素预测来提高合成语音的自然度。
语素级别的BERT模型:
联合预测语素和字母表:
提升语音合成自然度:
简化模型输入: