赞
踩
首先需要下载本项目所需要的基本环境,一个是DDSP2的项目本身,链接如下
https://pan.baidu.com/s/1zwGpOHaZciTrdcCIBJD0lQ?pwd=INT4
然后是FFmpeg,链接如下
Releases · BtbN/FFmpeg-Builds (github.com)
这里需要注意的是,你要下载的是后缀为win64-gpl的那一个压缩包,下下来以后,将你的bin文件夹加入系统环境中,听我说你们也不知道怎么弄,直接看我的截图
按照上面的操作一步一步来即可,环境设置完毕以后,把本项目解压,然后直接点击“启动训练推理webui”一键启动就可以了,第一次启动可能会有点慢,耐心等待一会,启动以后,界面如下
这个包里面有一个预置的权重,在exp文件夹里,我们可以先拿到一段语音文件,先试一下效果如何,这里需要注意的是,这个文件无论是训练,还是推理,都只支持wav的文件格式,但是我们大部分手机或者其他录音出来的格式都不是wav格式,所以需要一个转格式的网站,链接如下
我们只需要上传我们要转的文件,然后选择wav格式,就可以了,操作如下
转换完毕以后,直接下载即可
拿到wav文件以后,直接拖到那个输入文件的地方,然后点击转换即可,具体操作如下
这里的变调,说话人id等都可以先随便设置,我们只是在测试环境搭建的结果的,如果这一步没有问题的话,我们再执行下一步。
关于DDSP2的训练,大家需要注意,这个训练还是很吃设备的,前期建议大家尽量要拿到单人的,干净的人声来训练,才会有一个比较好的效果,这里一个小技巧分享给大家
哔哩哔哩(bilibili)视频解析下载 - 保存B站视频到手机、电脑 (iiilab.com)
通过这个网站可以把b站的视频下载下来,然后在通过上面那个网站就可以把mp4文件转换成wav文件,从而拿到干净的人声
拿到人声以后,将wav文件放在\DDSP\DDSP-SVC\data\train\audio这个地址下,再放10个验证wav文件在\DDSP\DDSP-SVC\data这个地址下,然后直接训练即可,具体操作看下图
记住,打开数据集文件夹以后,把你要训练的文件放完,然后再点击开始预处理,预处理完了以后,直接点击训练即可。
后面还有可以使用实时变声器的,这个就留着大家自己探索了,在文章的最后,需要提醒大家,本次教程仅限于技术分享,如果大家要拿着这个教程去做一些违反道德的事情,我首先切割,然后第一个举报你,希望大家都是抱着学习的心态来看教程的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。