赞
踩
/psycheEpic/GPT-SoVITS
conda activate GPTSoVits
nohup python ./webui.py >>./webui.log &
cd /psycheEpic/GPT-SoVITS/tools/uvr5
python webui.py "cuda" True 15666 True
在浏览器进入界面:https://73de21d131614dd42e.gradio.live,这个地址每次启动都会变得
先用HP2模型处理一遍(提取人声),然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav。输出的文件默认在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径,到时候找不到文件谁也帮不了你。处理完的音频(vocal)的是人声,(instrument)是伴奏,(No Reverb)的没混响的,(Reverb)的是混响。(vocal)(No Reverb)才是要用的文件,其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。
1)第一步先提前人声,人声和背景音乐分离,HP2模型
2)第二步将上一步分离出来的人声,上传作为输入,再使用onnx_dereverb提前一次人声
3)第三步将上一步的人声作为输入,去混响,使用DeEcho-Aggressive(去混响)
进入主页面操作:
为什么要打标:打标就是给每个音频配上文字,这样才能让AI学习到每个字该怎么读。这里的标指的是标注
这步很简单只要把刚才的切分文件夹输入,如果你音频降噪过,那么默认是output/slicer_opt文件夹,如果你切分了没有降噪,那么默认是output/slicer_opt文件夹。然后选择达摩ASR或者fast whisper。达摩ASR只能用于识别中文,效果也最好。fast whisper可以标注99种语言,是目前最好的英语和日语识别,模型尺寸选large V3,语种选auto自动就好了。然后点开启离线批量ASR就好了,默认输出是output/asr_opt这个路径,建议不要改输出路径,到时候找不到文件谁也帮不了你。ASR需要一些时间,看着控制台有没有报错就好了。
进入Python环境
conda activate GPTSoVits
cd /psycheEpic/GPT-SoVITS/GPT_SoVITS/
nohup python inference_webui.py >>./inference_webui.log &
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。