开源的文字转人声的大模型【输出】

作者：从前慢现在也慢 | 2024-08-06 12:00:38

踩

开源的文字转人声的大模型【输出】

Tacotron 2：

由 Google Brain 团队开发的端到端的文本到语音合成模型。它使用深度学习技术，将输入的文本转换为自然流畅的语音输出。

GitHub 仓库：https://github.com/NVIDIA/tacotron2

由 DeepMind 开发的深度生成模型，用于语音合成任务。WaveNet 基于深度卷积神经网络，能够生成高质量、逼真的语音音频。

GitHub 仓库：https://github.com/deepmind/wavenet

一种快速而高效的端到端文本到语音合成模型。FastSpeech 使用自注意力机制和转换器架构，能够生成高质量的语音输出。

GitHub 仓库：https://github.com/mozilla/TTS/tree/master/examples/fastspeech

一种基于 Transformer 和 WaveNet 的端到端多说话人语音合成模型。它能够根据输入的文本和说话人特征生成逼真的语音输出。

GitHub 仓库：https://github.com/NVIDIA/mellotron

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】