秋刀鱼在做梦

这个屌丝很懒，什么也没留下！

热门标签

【AI模型】一分钟教你使用GPT-SoVITS，克隆你的声音，效果十分逼真，全干货教程

作者：秋刀鱼在做梦 | 2024-07-31 03:58:46

踩

gpt-sovits

文章不废话，直接上教程

喜欢的小伙伴点个大拇指或者收藏一下，一键三连，你们的支持就是我最大的动力

一、GPT-SoVITS下载

首先该模型是GitHub上的开源项目，可以直接下载

GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

项目下载后压缩包放入一个非中文路径解压，解压后在文件夹找到go-webui.bat，双击运行即可，如果长时间cmd没反应，可以尝试回车，或者在顶头右键属性，取消快速编辑模式并确定即可

启动成功后浏览器会自动打开这个UI界面，接下来我们就可以正式开始了

二、GPT-SoVITS使用

首先我们可以准备好一段音频，用于切割训练，我这里准备了四分钟，取自一个视频中的音频

1.人声分离

音频分离可以将“是否开启UVR5-WebUI”勾选上，等待几秒就会自动打开这个界面，选择需要处理的音频，选择好模型和输出的文件夹目录后就可以开始转换了

2.音频处理

得到需要训练的音频后，我们将音频的文件路径复制到第一个方框，然后在第二个方框选择输出的路径，其余不变即可，点击开启语音切割，耐心等待几秒钟，文件就会被切割成几秒钟的一句话

随后下面找到ASR音频处理，文件路径选择刚刚切分好音频的文件夹，输出路径也选择一个文件夹用于存放生成的list文件

注：ASR模型可以自己选择，只训练中文可以不修改，但如果想生成英文或者日语，可以自行选择

生成好的文件

最后我们在下方填入list的文件路径，点击下方开启语音文本校对标注工具，开始打标

此操作也会启动一个新的界面

3.音频打标

进入如下界面后即可进行打标，左侧为自动生成的文字，中间为原音频，我们需要根据音频实际去修改左侧文字，看看是否有错误，错误一般为文字错误，标点错误，断句错误等，修改好后点击第二个Submit Test提交即可

本页检查完，如果有第二页，则点击右上角Next跳转下一页进行打标，需要删除音频则勾选yes，然后点击顶部的Delete Audio进行删除

文件全部打标完成，点击Save File即可，然后关闭页面，把上一个页面的“是否开启打标WebUI”勾给取消，滚动到界面上方跳转到TTS界面

4.TTS处理

这一步很简单，我们只需要使用更改这一个list文件夹目录即可

随后找到最底下的一键三连！！！（疯狂暗示）

文件处理完成后上方切换到1B-微调训练

可以自己更改数值，一般不建议太大，以我笔记本3050为例，默认的数值保持不变如下，生成模型所需要的时间和轮数以及保存频率有关，模型数量可以自己计算

模型数量=总训练轮数÷保存频率

点击开启SoVITS训练，也点击GPT训练

这一步耗时较长，我们在控制台可以看到运行的结果

5.TTS推理

训练结束后，点击跳转1C-推理

同理，其他都不用动，模型列表我们默认选择最大的，我这里就是e15和e8，都选上之后，点击开启TTS推理webUI，耐心等待界面跳转

跳转到此界面后我们可以详细看一看内容

首先这里面也可以选择模型进行更改，这个设置也很不错

看到下边，需要我们上传10秒以内的音频，注意了，这里是十秒音频，必须和前边训练的声音要一致，前边假如训练的是自己的声音，那这里也要上传自己的声音，而且此次生成的音频语气感情都会参照这10秒内的声音来合成

看旁边，参考音频文本，就填这十秒音频的文本即可，要对应上

下方需要合成的文本，我们可以自己填需要文本转语音的内容，可以长可以短，如果需要短句，则在底部输入，选择要切分的类型，切分好后再粘贴进需要生成的文本里

最后点击合成语音，大功告成！

在这个页面可以预览生成的语音，点击语音条旁边的三个点就可以下载

如果不满意还可以重复生成

文件夹里的output文件夹就是存放所有的输出，我们可以定期删除清理掉，减少磁盘占用

（每次生成的语音都会保存在这里，所以也不用点击下载，会自动保存进文件夹中）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/906916