当前位置:   article > 正文

【史上最强】还原你的声音,GPT-SoVITS在windows下安装使用技巧_gpt-sovits安装包下载

gpt-sovits安装包下载

安装环境:

系统:Windows11

内存:32G

显卡:4060ti16G

1.下载源码到本地磁盘

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

2.启动双击go-webui.bat

3.访问地址:http://localhost:9874

3.页签【0-前置数据获取工具】中【0a-UVR5人声伴奏分离&去混响去延迟工具】是如果需要分离人声的音频,作者提供了一个工具可以勾选使用,不需要可以跳过

4.0b-语音切分工具】目的是将一个长音频分解成若干个短音频用于训练,在【音频自动切分输入路径,可文件可文件夹】中填入输入长音频文件路径,如:‪D:\GPT-SoVITS-beta\test\mike\mike的训练音频.m4a

5.【切分后的子音频的输出根目录】填入切割后文件的文件夹,如:‪D:\GPT-SoVITS-beta\test\mike\output\slicer_opt后其他先保持默认,点击【开启语音切割】

6.打开切分后的音频看下是否切成多个小段,若没有还是一个长音频,可以调整threshold值,如:-34调整到-20再点击【开启语音切割】

7.【0c-中文批量离线ASR工具】是将每小段的语音进行ASR识别文字,【批量ASR(中文only)输入文件夹路径】填入刚刚切割后小段的文件路径,如:D:\GPT-SoVITS-beta\test\mike\output\slicer_opt

点击【开启离线批量ASR】会在D:\GPT-SoVITS-beta\output\asr_opt生成一个slicer_opt.list文件,里面包含每小段音频的文字识别

8.【0d-语音文本校对标注工具】需要对asr后的文字识别做个校准,【.list标注文件的路径】中填入刚刚生成的slicer_opt.list的路径,如:D:\GPT-SoVITS-beta\output\asr_opt\slicer_opt.list,勾选【是否开启打标WEBUI】,后会自动跳转录音文字核对页面

9.把录音和文字核对一边,文字识别有问题的可以更改,翻页点击NextIndex,更改完点击SubmitText,会自动更新slicer_opt.list文件

10.回到主页,点击页签【1-GPT_SoVITS-TTS】开始语音模型训练,【*实验/模型名】中帮模型起个名字

11.点击【1A】页签【*文本标注文件】中输入核对后list文件的位置D:\GPT-SoVITS-beta\output\asr_opt\slicer_opt.list,【*训练集音频文件目录】中填入切割后录音的文件夹D:\GPT-SoVITS-beta\test\mike\output\slicer_opt

12.点击【开启一键三连】,完成后会显示一键三连进程结束

13.切换到【1B-微调训练】页签点击【开启SoVITS训练】,需要等待一段时间后提示完成

14.点击【开启GPT训练】,训练完成后语音模型生成

15.点击【1C-推理】,点击【刷新模型路径】,可以在下拉选项中看见新训练的模型,选中模型名-e-15.ckpt和模型名_e8_s104.pth模型,勾选【是否开启TTS推了WebUI】,会跳转到TTS合成语音页面

16.【*请上传并填写参考信息】选择上传一个3-10秒的音频,可以是刚刚切分的小音频 ,然后【参考音频的文本】中将文字识别填入

17,选择语种后,【需要合成的文本】输入需要合成语音文字,点击【语音合成】

18.最后还有语句切分工具,可以用于超长文本的切分,太长的文本合成出来效果不一定好,所以太长建议先切。合成会根据文本的换行分开合成再拼起来。

小技巧:当勾选中文时,对英文的生成效果就会差很多,如果有中英混合的话所以可以将“AIGC”换成“诶爱机西”读出的效果会好些^_^。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/315031
推荐阅读
相关标签
  

闽ICP备14008679号