当前位置:   article > 正文

【AI模型】一分钟教你使用GPT-SoVITS,克隆你的声音,效果十分逼真,全干货教程

gpt-sovits

文章不废话,直接上教程

喜欢的小伙伴点个大拇指或者收藏一下,一键三连,你们的支持就是我最大的动力

一、GPT-SoVITS下载

首先该模型是GitHub上的开源项目,可以直接下载

GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

项目下载后压缩包放入一个非中文路径解压,解压后在文件夹找到go-webui.bat,双击运行即可,如果长时间cmd没反应,可以尝试回车,或者在顶头右键属性,取消快速编辑模式并确定即可

 

 启动成功后浏览器会自动打开这个UI界面,接下来我们就可以正式开始了

二、GPT-SoVITS使用 

首先我们可以准备好一段音频,用于切割训练,我这里准备了四分钟,取自一个视频中的音频

1.人声分离

音频分离可以将“是否开启UVR5-WebUI”勾选上,等待几秒就会自动打开这个界面,选择需要处理的音频,选择好模型和输出的文件夹目录后就可以开始转换了

 2.音频处理

得到需要训练的音频后,我们将音频的文件路径复制到第一个方框,然后在第二个方框选择输出的路径,其余不变即可,点击开启语音切割,耐心等待几秒钟,文件就会被切割成几秒钟的一句话

 

随后下面找到ASR音频处理,文件路径选择刚刚切分好音频的文件夹,输出路径也选择一个文件夹用于存放生成的list文件

注:ASR模型可以自己选择,只训练中文可以不修改,但如果想生成英文或者日语,可以自行选择

 生成好的文件

最后我们在下方填入list的文件路径,点击下方开启语音文本校对标注工具,开始打标

此操作也会启动一个新的界面

3.音频打标

进入如下界面后即可进行打标,左侧为自动生成的文字,中间为原音频,我们需要根据音频实际去修改左侧文字,看看是否有错误,错误一般为文字错误,标点错误,断句错误等,修改好后点击第二个Submit Test提交即可

本页检查完,如果有第二页,则点击右上角Next跳转下一页进行打标,需要删除音频则勾选yes,然后点击顶部的Delete Audio进行删除

 文件全部打标完成,点击Save File即可,然后关闭页面,把上一个页面的“是否开启打标WebUI”勾给取消,滚动到界面上方跳转到TTS界面

 

4.TTS处理

 这一步很简单,我们只需要使用更改这一个list文件夹目录即可

随后找到最底下的一键三连!!!(疯狂暗示) 

 文件处理完成后上方切换到1B-微调训练

可以自己更改数值,一般不建议太大,以我笔记本3050为例,默认的数值保持不变如下,生成模型所需要的时间和轮数以及保存频率有关,模型数量可以自己计算

模型数量=总训练轮数÷保存频率

点击开启SoVITS训练,也点击GPT训练

这一步耗时较长,我们在控制台可以看到运行的结果

5.TTS推理 

训练结束后,点击跳转1C-推理

同理,其他都不用动,模型列表我们默认选择最大的,我这里就是e15和e8,都选上之后,点击开启TTS推理webUI,耐心等待界面跳转

 跳转到此界面后我们可以详细看一看内容

首先这里面也可以选择模型进行更改,这个设置也很不错

看到下边,需要我们上传10秒以内的音频,注意了,这里是十秒音频,必须和前边训练的声音要一致,前边假如训练的是自己的声音,那这里也要上传自己的声音,而且此次生成的音频语气感情都会参照这10秒内的声音来合成

看旁边,参考音频文本,就填这十秒音频的文本即可,要对应上

下方需要合成的文本,我们可以自己填需要文本转语音的内容,可以长可以短,如果需要短句,则在底部输入,选择要切分的类型,切分好后再粘贴进需要生成的文本里

最后点击合成语音,大功告成!

 在这个页面可以预览生成的语音,点击语音条旁边的三个点就可以下载

如果不满意还可以重复生成

文件夹里的output文件夹就是存放所有的输出,我们可以定期删除清理掉,减少磁盘占用

(每次生成的语音都会保存在这里,所以也不用点击下载,会自动保存进文件夹中)

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号