赞
踩
文章不废话,直接上教程
喜欢的小伙伴点个大拇指或者收藏一下,一键三连,你们的支持就是我最大的动力
首先该模型是GitHub上的开源项目,可以直接下载
项目下载后压缩包放入一个非中文路径解压,解压后在文件夹找到go-webui.bat,双击运行即可,如果长时间cmd没反应,可以尝试回车,或者在顶头右键属性,取消快速编辑模式并确定即可
启动成功后浏览器会自动打开这个UI界面,接下来我们就可以正式开始了
首先我们可以准备好一段音频,用于切割训练,我这里准备了四分钟,取自一个视频中的音频
音频分离可以将“是否开启UVR5-WebUI”勾选上,等待几秒就会自动打开这个界面,选择需要处理的音频,选择好模型和输出的文件夹目录后就可以开始转换了
得到需要训练的音频后,我们将音频的文件路径复制到第一个方框,然后在第二个方框选择输出的路径,其余不变即可,点击开启语音切割,耐心等待几秒钟,文件就会被切割成几秒钟的一句话
随后下面找到ASR音频处理,文件路径选择刚刚切分好音频的文件夹,输出路径也选择一个文件夹用于存放生成的list文件
注:ASR模型可以自己选择,只训练中文可以不修改,但如果想生成英文或者日语,可以自行选择
生成好的文件
最后我们在下方填入list的文件路径,点击下方开启语音文本校对标注工具,开始打标
此操作也会启动一个新的界面
进入如下界面后即可进行打标,左侧为自动生成的文字,中间为原音频,我们需要根据音频实际去修改左侧文字,看看是否有错误,错误一般为文字错误,标点错误,断句错误等,修改好后点击第二个Submit Test提交即可
本页检查完,如果有第二页,则点击右上角Next跳转下一页进行打标,需要删除音频则勾选yes,然后点击顶部的Delete Audio进行删除
文件全部打标完成,点击Save File即可,然后关闭页面,把上一个页面的“是否开启打标WebUI”勾给取消,滚动到界面上方跳转到TTS界面
这一步很简单,我们只需要使用更改这一个list文件夹目录即可
随后找到最底下的一键三连!!!(疯狂暗示)
文件处理完成后上方切换到1B-微调训练
可以自己更改数值,一般不建议太大,以我笔记本3050为例,默认的数值保持不变如下,生成模型所需要的时间和轮数以及保存频率有关,模型数量可以自己计算
模型数量=总训练轮数÷保存频率
点击开启SoVITS训练,也点击GPT训练
这一步耗时较长,我们在控制台可以看到运行的结果
训练结束后,点击跳转1C-推理
同理,其他都不用动,模型列表我们默认选择最大的,我这里就是e15和e8,都选上之后,点击开启TTS推理webUI,耐心等待界面跳转
跳转到此界面后我们可以详细看一看内容
首先这里面也可以选择模型进行更改,这个设置也很不错
看到下边,需要我们上传10秒以内的音频,注意了,这里是十秒音频,必须和前边训练的声音要一致,前边假如训练的是自己的声音,那这里也要上传自己的声音,而且此次生成的音频语气感情都会参照这10秒内的声音来合成
看旁边,参考音频文本,就填这十秒音频的文本即可,要对应上
下方需要合成的文本,我们可以自己填需要文本转语音的内容,可以长可以短,如果需要短句,则在底部输入,选择要切分的类型,切分好后再粘贴进需要生成的文本里
最后点击合成语音,大功告成!
在这个页面可以预览生成的语音,点击语音条旁边的三个点就可以下载
如果不满意还可以重复生成
文件夹里的output文件夹就是存放所有的输出,我们可以定期删除清理掉,减少磁盘占用
(每次生成的语音都会保存在这里,所以也不用点击下载,会自动保存进文件夹中)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。