赞
踩
一共有两个分支,一个是v1,另一个是vec768-layer12,目前说来,应该是第二个分支效果更好,但是没有经过广泛验证。总体来说比较玄学,选择哪一个都可以
如果GPU显存不是特别大的话,把这个Batch Size设的小一点,6G显存就设置为4即可
同时,为了减少显存占用,可以使用半精度进行训练
检查训练分支以及说话人列表
如果所有的参数都设置正确的话,点击这个写入配置文件,才可以让上面选项生效
点这个训练按钮就可以开始训练了,训练过程中会弹出来一个黑色的命令行窗口,
上面会有很多信息,其中我们主要关注这个reference_loss这个值是越低越好的,如果它的值可以在20以下的话,那么表示他的模型是相当不错的
需要说明的是,这个训练是不会自动充值的,需要你自己根据损失值来判断是否已经训练合乎要求了
这样的过程中,如果爆显存了,那么就把这个数据集的切片设的更短一点,每段都设成5秒应该就够了
如果是刚训练完,那么模型和配置文件的路径都是正确的。如果是从外部转移过来的的话,那么需要放到对应的位置才行
加载完模型之后,上传一段去除了背景声的音频,之后点击这个音频转换
推理完成后,点击这里进行试听
如果确定是自己想要的效果的话,点击音频右边的三个点进行下载
需要注意的是,这里是纯人声,并没有伴奏,之后可以把它导入到PR或者一些类似的处理软件中进行声音的合成
之后就可以导出来或者发布到其他平台上了
(img-L8NnbjCy-1683636718490)]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。