当前位置:   article > 正文

so-vits-svc4.1从零训练自己的模型

so-vits-svc4.1从零训练自己的模型

so-vits-svc需求GPU,如果电脑没有GPU可以用云端训练。

如果您没有anaconda,请忽略下文出现的conda activate sovits,如果您安装了pytorch-gpu但无法使用那么您需要自行下载cuda。因为anaconda在安装pytorch时会自行安装所需的环境。

音频数据处理:

1.uvr5提取人声/去和声/去混响

2.au去底噪(可选)

3.au进行响度匹配

4.音频切割

svc/rvc模型训练前的音频数据处理-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/2301_79607161/article/details/135573528?spm=1001.2014.3001.5501

安装环境:

python版本:3.8版本。

版本过高会导致依赖安装不上。

pytorch安装:

请参考这篇文章

Anaconda安装Pytorch(GPU和CPU)超简单的两种方法-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/2301_79607161/article/details/134708867?spm=1001.2014.3001.5502

FFmpeg安装:

FFmpeg官网icon-default.png?t=N7T8https://ffmpeg.org/

下载

进入之后点击下载,选择自己的版本,我是windows。

安装

下载好后解压到一个自己不经常动的文件夹。打开bin目录,复制此路径。

如:C:\Program Files\ffmpeg-6.1-full_build\bin

将此路径添加到环境变量:

此电脑 > 右键 > 属性 > 高级系统设置 > 环境变量 > 点开path > 新建 > 粘贴路径 

然后一直点确认

查看是否可用:

ffmpeg -version

其他python环境依赖:

设置pip镜像源:

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/

可以参考下面这个文章安装fairseq==0.12.2

注意:请先安装pythorch在安装fairseq,否则会自动安装cpu版本的pythorch。

安装pyqt5 error:Microsoft Visual C++ 14.0 or greater is required.Get it with“Microsoft C++ Build Tools-CSDN博客文章浏览阅读454次,点赞16次,收藏9次。试了很多其他办法但是都没用,又感觉别的文章中12G的Visual Studio默认安装没啥必要。所以试了几个看起来需要的。https://blog.csdn.net/2301_79607161/article/details/135144949?spm=1001.2014.3001.5502

pip install fairseq==0.12.2

在anaconda命令行输入代码进入自己安装so-vits-svc的文件夹

cd /dD:\hina\hina_vits\so-vits-svc-4.1-Stable

运行以下代码安装依赖

pip install -r requirements_win.txt

预处理:

预先下载的模型文件:

1.编码器
  • 用contentvec做编码器

  • 文件放在pretrain目录下

​​​​checkpoint_best_legacy_500.pt 约1g+大小icon-default.png?t=N7T8https://ibm.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr

2.底模文件
  • 预训练底模文件: G_0.pth D_0.pth

    • 放在logs/44k目录下
  • 扩散模型预训练底模文件: model_0.pt

    • 放在logs/44k/diffusion目录下

预训练底模下载地址icon-default.png?t=N7T8https://huggingface.co/Sucial/so-vits-svc4.1-pretrain_model/tree/main

3.使用NSF-HIFIGAN增强器浅层扩散

预训练的 NSF-HIFIGAN 声码器:nsf_hifigan_20221211.zip

  • 解压后,将里面的四个文件放在pretrain/nsf_hifigan目录下

nsf_hifigan_20221211.zipicon-default.png?t=N7T8https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip

4.使用rmvpeF0预测器

如果使用rmvpeF0预测器的话,需要下载预训练的 RMVPE 模型

下载模型rmvpe.zip,目前首推该权重。

解压缩rmvpe.zip,并将其中的model.pt文件改名为rmvpe.pt并放在pretrain目录下

rmvpeicon-default.png?t=N7T8https://objects.githubusercontent.com/github-production-release-asset-2e65be/663143308/33d522ae-de7a-43f8-aff7-cde4cdf1c956?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAVCODYLSA53PQK4ZA%2F20240113%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240113T083027Z&X-Amz-Expires=300&X-Amz-Signature=8778f9e2614ee3f35ba5ed1778d1586166afd7996b9ffce24a0abf788ee73f34&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=663143308&response-content-disposition=attachment%3B%20filename%3Drmvpe.zip&response-content-type=application%2Foctet-stream

数据集准备:

1.需要以以下文件结构将数据集放入 dataset_raw 目录

  1. dataset_raw
  2. ├───speaker0 #说话人1
  3. │ ├───xxx1-xxx1.wav
  4. │ ├───...
  5. │ └───Lxx-0xx8.wav
  6. └───speaker1 #说话人2
  7. ├───xx2-0xxx2.wav
  8. ├───...
  9. └───xxx7-xxx007.wav

2.此外还需要编辑config.json

新建一个config.json文件,内容如下

  1. "n_speakers": 10 #说话人人数
  2. "spk":{
  3. "speaker0": 0, #说话人名字
  4. "speaker1": 1,
  5. }

dataset_raw文件夹内容如下

数据预处理

在anaconda终端cd进入项目文件夹

  1. cd /dD:\hina\hina_vits\so-vits-svc-4.1-Stable
  2. conda activate sovits

  

1.重新采样至 44100Hz 和单声道。

该步骤分为两种情况,请按照自己数据集处理的情况运行代码。

虽然本项目拥有重采样、转换单声道与响度匹配的脚本 resample.py,但是默认的响度匹配是匹配到 0db。这可能会造成音质的受损。而 python 的响度匹配包 pyloudnorm 无法对电平进行压限,这会导致爆音。所以建议可以考虑使用专业声音处理软件如adobe audition等软件做响度匹配处理。

我建议自己手动进行响度匹配,之后选择不进行响度匹配,个人感觉训练效果有提升。

自动响度匹配:

python resample.py

不进行响度匹配:

python resample.py --skip_loudnorm

2.自动将数据集拆分为训练集和验证集,并生成配置文件。

有两个选择,建议选择第一个。如果音频质量不好选择第二个。

1)启用响度嵌入,训练后的模型将与输入源的响度匹配

python preprocess_flist_config.py --speech_encoder vec768l12 --vol_aug

2)与训练集的响度相匹配。

python preprocess_flist_config.py --speech_encoder vec768l12
  1. 您可以修改在config文件夹下生成的 config.json 和 diffusion.yaml 中的一些参数
  2. keep_ckpts:在训练期间保留先前模型的数量。
  3. all_in_mem:将所有数据集加载到RAM。当某些平台的磁盘 IO 过低且系统内存远大于数据集时,可以启用它。
  4. batch_size:可以将单个训练会话加载到 GPU 的数据量调整为小于 GPU 内存容量的大小。
  5. 扩散.yaml
  6. cache_all_data:将所有数据集加载到RAM。当某些平台的磁盘 IO 过低且系统内存远大于数据集时,可以启用它。
  7. duration:训练时音频切片的时长,可根据显存大小进行调整,注意:此值必须小于训练集中音频的最小时间!
  8. batch_size:可以将单个训练会话加载到 GPU 的数据量调整为小于视频内存容量的大小。
  9. timesteps:扩散模型中的总步数,默认为 1000
  10. k_step_max:训练只能训练步进扩散以节省训练时间,注意该值必须小于,0 表示训练整个扩散模型,注意:如果不训练整个扩散模型将无法使用 only_diffusion!k_step_maxtimesteps

3.生成 hubert 和 f0

python preprocess_hubert_f0.py --f0_predictor dio

默认的f0预测器是dio,但我们上面加了rmvpe预测器,所以我们可以使用rmvpe预测器。

建议使用浅扩散

如果需要浅扩散(可选),则需要添加参数,例如:--use_diff

1)浅扩散使用rmvpe

python preprocess_hubert_f0.py --f0_predictor rmvpe --use_diff

2)浅扩散使用dio

python preprocess_hubert_f0.py --f0_predictor dio --use_diff

加快预处理速度

如果你的数据集非常大,你可以像这样增加参数:--num_processes

python preprocess_hubert_f0.py --f0_predictor dio --num_processes 8

完成以上步骤后,数据集目录下会包含预处理后的数据,可以删除dataset_raw文件夹。

模型训练

1.修改配置文件

打开configs文件夹,

出现两个配置文件

config.json文件:

(括号内为个人设置的,大家可以自行修改)

"log_interval" :每200次训练输出一次日志   (2000)

"eval_interval" :每800次训练保存一次模型  (8000)

"learning_rate" :学习率   (如果你的batch_size在设置在12以上请将学习率设置为0.0002)

"batch_size" :过低会造成震荡或不收敛,过高会导致爆显存  (建议不要超过你的显存大小)

"keep_ckpts" :训练时保留最后的几个模型,0代表所有  ( 0 建议全部保存)

一次性的可选训练模型

下面这两个模型在推理的时候只用选择一个。大家可以都试试,看看那个更好用。好像是特征索引用的更多。

聚类音色泄漏控制

  1. # CPU
  2. python cluster/train_cluster.py
  3. # GPU
  4. python cluster/train_cluster.py --gpu

特征检索

python train_index.py -c configs/config.json

主模型训练

先进入自己的环境

  1. cd /dD:\hina\fufu_so-vits-svc-4.1
  2. conda activate sovits

然后就可以开始训练了

python train.py -c configs/config.json -m 44k

出现以下内容说明开始训练

扩散模型(可选)

python train_diff.py -c configs/diffusion.yaml

模型训练结束后,模型文件保存在logs/44k目录下,扩散模型在logs/44k/diffusion

打开tensorboard

tensorboard --logdir=./logs/44k

输入这个代码后会有一个链接,按住ctrl点击就可以打开。一般来说损失值越低越好。

推理

打开webUI

python webUI.py

推理时需要g模型,config.json文件,如果使用浅扩散或者特征索引的话大家可以自己加。

加载完模型之后把音乐拖到下面就可以推理了。

一些报错问题:

1.安装fairseq报错:提示lxml报错:(2种方法)

                1)降低python版本到3.8。

                2)pip install lxml==4.8.0

2.重新采样至 44100Hz 和单声道时报错(OSError: [WinError 1455] 页面文件太小,无法完成操作。):修改虚拟内存然后重启电脑。

3.如果开始训练后没反应,GPU占用率在10%以下,可尝试调大虚拟内存。

4.webUI 相关报错
出现以下报错时:
启动 webUI 时报错:ImportError: cannot import name 'Schema' from 'pydantic'
webUI 加载模型时报错:AttributeError("'Dropdown' object has no attribute 'update'")
请限制以下依赖版本:
fastapi==0.84.0, gradio==3.41.2, pydantic==1.10.12
具体解决方法为:在 cmd 中依次输入以下命令以更新依赖包:
pip install --upgrade fastapi==0.84.0
pip install --upgrade gradio==3.41.2
pip install --upgrade pydantic==1.10.12

此文档为学习总结

感谢名单:

1.Sucial丶B站教程

2.官方文档

3.云端训练文档

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/224484
推荐阅读
相关标签
  

闽ICP备14008679号