当前位置:   article > 正文

开源的文字转人声的大模型【输出】

开源的文字转人声的大模型【输出】

Tacotron 2:

由 Google Brain 团队开发的端到端的文本到语音合成模型。它使用深度学习技术,将输入的文本转换为自然流畅的语音输出。

GitHub 仓库:https://github.com/NVIDIA/tacotron2

WaveNet:

由 DeepMind 开发的深度生成模型,用于语音合成任务。WaveNet 基于深度卷积神经网络,能够生成高质量、逼真的语音音频。

GitHub 仓库:https://github.com/deepmind/wavenet

FastSpeech:

一种快速而高效的端到端文本到语音合成模型。FastSpeech 使用自注意力机制和转换器架构,能够生成高质量的语音输出。

GitHub 仓库:https://github.com/mozilla/TTS/tree/master/examples/fastspeech

Mellotron:

一种基于 Transformer 和 WaveNet 的端到端多说话人语音合成模型。它能够根据输入的文本和说话人特征生成逼真的语音输出。

GitHub 仓库:https://github.com/NVIDIA/mellotron

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/937322
推荐阅读
相关标签
  

闽ICP备14008679号