ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具（TTS）本地一键整合包下

作者：菜鸟追梦旅行 | 2024-06-05 14:40:46

踩

先介绍下ChatTTS

和之前发布的 Fish Speech 类似，都是免费开源的文本生成语音的AI软件，但不同的是，ChatTTS测试下来，对于人类情感语调的模仿，应该是目前开源项目做的最好的，是一款高度接近人类情感、音色、语调的文本语音合成项目。不像其他的语音合成项目，出来的音调很生硬，一听就知道是合成的。ChatTTS的合成效果，高度模仿人类情感，不仔细听，根本分不清是真人还是合成。关键是开源免费。目前只支持中英两种语言。

本地一键整合包下载地址：ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具（TTS）本地一键整合包

项目地址：https://github.com/2noise/ChatTTS/
今天分享这个项目的一键整合包，解压即用。显卡要求也不高，4G显存就可以用，但速度慢了些，做自媒体的朋友必备神器。

这次发布的改良版 WebUI 来自民间大佬，大佬GitHub主页 GitHub - craii/ChatTTS_WebUI: WebUI for ChatTTS
如上图，新增更多详细的调参设置，最大的亮点就是新增了 固定音色 保存功能，相比之前的版本，每次生成的音色都不固定，听起来有点不协调。这次的版本，可以手动保存固定的音色，方便同一个素材使用相同的音色。

具体使用方法：

输入文本和参数后，按照上图操作，输入一个音色名称，点保存。

保存音色后，需要重启服务，即关闭任务栏黑色启动窗口，重新运行一键启动即可。

重启进入页面后，就可以在音色下拉列表里找到上一次保存的音色，这样就可以统一音色了。

下面看下官方的介绍

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.

先说下ChatTTS的主要特点
对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

最后说说使用
使用很简单，双击一键启动，等待自动跳转到WebUI界面，输入一段需要转换的文字，选择男声或者女生，最后点合成即可。
可以在合成文字里加入情感控制词，比如常见的笑声，直接在需要加入笑声的文字后插入[laugh]即可。

软件使用常见问题
我要多少显存? Infer的速度是怎么样的?

对于30s的音频, 至少需要4G的显存. 对于4090D, 1s生成约7个字所对应的音频. RTF约0.65.

模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.

这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.

除了笑声还能控制什么吗? 还能控制其他情感吗?

在现在放出的模型版本中, 只有[laugh]和[uv_break], [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/676919