GPT-SoVITS的部署与API调用（主要以AutoDL云端部署）_gpt-sovits api

作者：空白诗007 | 2024-08-05 06:45:59

踩

gpt-sovits api

GPT-SoVITS是一款强大的支持少量语音转换、文本到语音的音色克隆模型。支持中文、英文、日文的语言推理。

据开发者各大博主测验，仅需提供5秒语音样本即可体验达到80%-95%像的声音克隆。若提供一分钟语音样本可以逼近真人的效果，且训练出高质量的TTS模型。

下载整合包的话直接双击go-webui.bat这个批处理文件即可

如果是下载源码的话，直接运行webui.py文件即可。

首先打开网页，租一个性价比高的显卡，我选的是RTX3090的显卡，然后点击“JupyterLab”进入终端操作界面。

我从网上下载了模型，有两个文件，一个是GPT模型，另一个是sovits模型，分别把这两个模型放在GPT_weights和SoVITS_weights目录下，然后修改config.py文件中的模型路径，一定不要搞混了。

然后修改api文件中的端口，改成'127.0.0.1'，可以用本机调用。

我写了测试文件，访问网址，把结果文件success.wav放在项目根目录下。

然后在终端输入python api.py -dr "12345.wav" -dt "抱歉…空间站是黑塔女士交给小姐的东西，我必须优先考虑主控舱段和科员们的安全。" -dl "zh"，回车运行。

其中-dr参数是指定参考音频文件，-dt参数是参考文件的文本（必须一字不落，而且音频文件停顿的地方要加标点符号，不然合成的效果不好），-dl文件是指定语言种类。以上三个参数必须添加。

我的参考音频文件是12345.wav，文件内容是"抱歉…空间站是黑塔女士交给小姐的东西，我必须优先考虑主控舱段和科员们的安全。"

终端启动之后可以运行测试文件了。

最后把根目录中的success.wav下载到你自己的电脑里就行了。

如果要合成的文本比较长，需要调相关推理参数，把GPT-SoVITS/interence.webui.py文件中的不切改成按中文句号切。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/931237