GPT-SoVITS音色克隆-模型训练步骤_gptsovit

作者：Guff_9hys | 2024-07-19 04:37:16

踩

gptsovit

GPT-SoVITS音色克隆-模型训练步骤

启动模型训练的主页面

1. 切到模型路径

/psycheEpic/GPT-SoVITS
1

进入Python虚拟环境，并挂起执行python脚本

conda activate GPTSoVits
nohup python ./webui.py >>./webui.log &
1
2

查看日志 tail -500f webui.log

2. uvr5人声分离和去混响处理

切换到路径

cd /psycheEpic/GPT-SoVITS/tools/uvr5
1

启动uvr5操作web界面

python webui.py "cuda" True 15666 True
1

3. 人声分离操作

在浏览器进入界面：https://73de21d131614dd42e.gradio.live，这个地址每次启动都会变得

先用HP2模型处理一遍（提取人声），然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive（去混响），输出格式选wav。输出的文件默认在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt这个文件夹下，建议不要改输出路径，到时候找不到文件谁也帮不了你。处理完的音频（vocal）的是人声，(instrument)是伴奏，(No Reverb)的没混响的，（Reverb）的是混响。（vocal）(No Reverb)才是要用的文件，其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。

1）第一步先提前人声，人声和背景音乐分离，HP2模型

在这里插入图片描述

2）第二步将上一步分离出来的人声，上传作为输入，再使用onnx_dereverb提前一次人声

在这里插入图片描述

3）第三步将上一步的人声作为输入，去混响，使用DeEcho-Aggressive（去混响）

在这里插入图片描述

4. 将长音频进行切割

进入主页面操作：

在这里插入图片描述

5.给切割好的音频作为输入，给对路径，调用模型进行打标

为什么要打标：打标就是给每个音频配上文字，这样才能让AI学习到每个字该怎么读。这里的标指的是标注

这步很简单只要把刚才的切分文件夹输入，如果你音频降噪过，那么默认是output/slicer_opt文件夹，如果你切分了没有降噪，那么默认是output/slicer_opt文件夹。然后选择达摩ASR或者fast whisper。达摩ASR只能用于识别中文，效果也最好。fast whisper可以标注99种语言，是目前最好的英语和日语识别，模型尺寸选large V3，语种选auto自动就好了。然后点开启离线批量ASR就好了，默认输出是output/asr_opt这个路径，建议不要改输出路径，到时候找不到文件谁也帮不了你。ASR需要一些时间，看着控制台有没有报错就好了。

在这里插入图片描述

6. 标注校验

在这里插入图片描述

7.GPT-SoVITS-TTS-训练集格式化工具-填好参数一键三连

在这里插入图片描述

8. 微调训练

在这里插入图片描述

9. 模型推理，刷新模型

在这里插入图片描述

执行脚本，打开推理页面

进入Python环境
conda activate GPTSoVits
cd /psycheEpic/GPT-SoVITS/GPT_SoVITS/
nohup python inference_webui.py >>./inference_webui.log &
1
2
3
4

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/849447