赞
踩
近年来,随着人工智能技术的不断发展,语音技术已经成为了热门领域。尽管已有不少技术实现了一定程度的成功,但传统语音合成技术的问题依然存在。传统方法对于训练数据的需求量大、效果受到声音质量和口音差异的影响。因此,在语音技术领域中,一种受到广泛关注的新技术GPT-SoVITS-WebUI应运而生。GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件,作为一种新兴的网络界面工具,具有自主学习、高效合成、支持多语言等特点,在语音领域中受到极高的关注和重视。它不仅能够迅速训练高质量的文本到语音模型,更能够克服声音质量和口音差异的影响,在语音合成中发挥既有的功效。同时,GPT-SoVITS-WebUI具有零次学习和少量次学习的TTS功能,可以实现自然语言转换,进一步提高了语音合成的性能。这一特性可为语音技术的开发者和爱好者带来更多的机会,实现多样化的语音应用,创造更加便捷的用户体验。综上所述,GPT-SoVITS-WebUI是一种非常先进的语音技术,具有广泛的应用前景和潜力。创作不易,要是对您有用请加个关注或点个赞,非常感谢了!
https://github.com/RVC-Boss/GPT-SoVITS
以下依据官方文档整理而得:
零样本 TTS:输入 5 秒的人声样本,体验即时文本到语音转换。
小镜头 TTS:只需 1 分钟的训练数据即可微调模型,以提高语音相似度和真实感。
跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。
WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练数据集和GPT/SoVITS模型。
详细说明:教程中文版 User guide (EN)
对于中国地区的用户,您可以点击此处使用AutoDL Cloud Docker在线体验全部功能。
注意:numba==0.56.4 需要 py<3.11
如果你是 Windows 用户(使用 win>=10 测试),你可以直接下载预打包的发行版,双击 go-webui.bat 启动 GPT-SoVITS-WebUI。
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh
只有满足以下条件的 Mac 才能训练模型:
xcode-select --install
所有 Mac 都可以使用 CPU 进行推理,这已被证明优于 GPU 推理。
首先,通过运行 或 确保已安装 FFmpeg,然后使用以下命令进行安装:brew install ffmpeg
conda install ffmpeg
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
pip install -r requirements.txt
注意:仅当安装了 PyTorch Nightly 时,训练模型才有效。
pip install -r requirements.txt
conda install ffmpeg
sudo apt install ffmpeg sudo apt install libsox-dev conda install -c conda-forge 'ffmpeg<7'
下载并放置ffmpeg.exe和ffprobe.exe GPT-SoVITS 根目录。
docker compose -f "docker-compose.yaml" up -d
如上所述,根据您的实际情况修改相应的参数,然后运行以下命令:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --v
从 GPT-SoVITS 模型下载预训练模型并将它们放在 中。GPT_SoVITS/pretrained_models
对于UVR5(人声/伴奏分离和混响去除),请从UVR5 Weights下载模型并将其放置在 .tools/uvr5/uvr5_weights
中国地区的用户可以通过输入下面的链接并点击“下载副本”来下载这两个模型
对于中文 ASR(另外),请从 Damo ASR 模型、Damo VAD 模型和 Damo Punc 模型下载模型,并将其放在 中。tools/damo_asr/models
TTS 注解 .list 文件格式:
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>vocal_path|speaker_name|language|text
- </code></span></span></span></span>
语言词典:
例:
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
- </code></span></span></span></span>
高优先级:
特征:
使用命令行打开 UVR5 的 WebUI
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
- </code></span></span></span></span>
如果打不开浏览器,按照下面的格式进行UVR处理,这是使用mdxnet进行音频处理
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>python mdxnet.py --model --input_root --output_vocal --output_ins --agg_level --format --device --is_half_precision
- </code></span></span></span></span>
这是使用命令行完成数据集的音频分割的方式
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>python audio_slicer.py \
- --input_path "<path_to_original_audio_file_or_directory>" \
- --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" \
- --threshold <volume_threshold> \
- --min_length <minimum_duration_of_each_subclip> \
- --min_interval <shortest_time_gap_between_adjacent_subclips>
- --hop_size <step_size_for_computing_volume_curve>
- </code></span></span></span></span>
这是使用命令行完成数据集 ASR 处理的方式(仅限中文)
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>python tools/damo_asr/cmd-asr.py "<Path to the directory containing input audio files>"
- </code></span></span></span></span>
ASR处理通过Faster_Whisper进行(ASR标记,中文除外)
(没有进度条,GPU性能可能会导致时间延迟)
- <span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><span style="color:#1f2328"><span style="color:var(--fgColor-default, var(--color-fg-default))"><span style="background-color:var(--bgColor-muted, var(--color-canvas-subtle))"><code>python ./tools/damo_asr/WhisperASR.py -i <input> -o <output> -f <file_name.list> -l <language>
- </code></span></span></span></span>
已启用自定义列表保存路径
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。