赞
踩
GPT-SoVITS是一款强大的支持少量语音转换、文本到语音的音色克隆模型。支持中文、英文、日文的语言推理。
据开发者各大博主测验,仅需提供5秒语音样本即可体验达到80%-95%像的声音克隆。若提供一分钟语音样本可以逼近真人的效果,且训练出高质量的TTS模型。
源码github地址:https://github.com/RVC-Boss/GPT-SoVITS
下载整合包的话直接双击go-webui.bat这个批处理文件即可
如果是下载源码的话,直接运行webui.py文件即可。
首先打开网页,租一个性价比高的显卡,我选的是RTX3090的显卡,然后点击“JupyterLab”进入终端操作界面。
模型训练就不说了,可以去哔站上看花儿不哭大佬的视频,耗时两个月自主研发的低成本AI音色克隆软件,免费送给大家!【GPT-SoVITS】_哔哩哔哩_bilibili
我从网上下载了模型,有两个文件,一个是GPT模型,另一个是sovits模型,分别把这两个模型放在GPT_weights和SoVITS_weights目录下,然后修改config.py文件中的模型路径,一定不要搞混了。
然后修改api文件中的端口,改成'127.0.0.1',可以用本机调用。
我写了测试文件,访问网址,把结果文件success.wav放在项目根目录下。
然后在终端输入python api.py -dr "12345.wav" -dt "抱歉…空间站是黑塔女士交给小姐的东西,我必须优先考虑主控舱段和科员们的安全。" -dl "zh",回车运行。
其中-dr参数是指定参考音频文件,-dt参数是参考文件的文本(必须一字不落,而且音频文件停顿的地方要加标点符号,不然合成的效果不好),-dl文件是指定语言种类。以上三个参数必须添加。
我的参考音频文件是12345.wav,文件内容是"抱歉…空间站是黑塔女士交给小姐的东西,我必须优先考虑主控舱段和科员们的安全。"
终端启动之后可以运行测试文件了。
最后把根目录中的success.wav下载到你自己的电脑里就行了。
如果要合成的文本比较长,需要调相关推理参数,把GPT-SoVITS/interence.webui.py文件中的不切改成按中文句号切。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。