国服最强文字转音频？Fish Speech

作者：天景科技苑 | 2024-07-31 03:44:10

踩

官网文档与示例

在这里插入图片描述

Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型，使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行，但是质量不尽如人意，建议使用RTX系列的显卡进行推理。

使用结果展示

    text= """
    2024年1月6日，夜色如墨，而深圳C局客户机房内的灯光却异常明亮，现场支撑的淞哥，眼睛紧盯着屏幕，手指在键盘上飞速敲击，随着最后一行代码的执行，他难掩激动地在大网改造保障群对话框里迅速写下：“服务启动完成、OSS（无线运营商业务系统）正常接入、定时报表正常生成、数据迁移范围符合预期……”这不仅是一条消息，更是一声胜利的号角。
消息一发出，群里立刻沸腾了，点赞和鼓掌的表情包不断在屏幕上跳动着。这一刻，我们所有人的心都紧紧相连，共同分享着这份来之不易的喜悦。
我坐在电脑前，闭上眼睛，任由思绪穿越时空，回到了过去一年中的每一个日夜……
缘起：跨领域迎接挑战
在OMC（无线网络管理）的先进领域，运营商客户始终在追求拥有一个高效管理系统——能够统一掌控庞大网络设备的理想平台。无论省份、设备制造商如何分散，都能通过统一的OMC系统实现无缝运维管理，这将极大提升运维效率，优化网络性能。
此前，我们的PRS（无线网络性能评估系统）作为无线网络管理领域的创新成果，成为了运营商客户日常网络运维不可或缺的一部分。客户对我们的信赖和对大网能力的期待，成为我们不断追求技术突破的动力。
2019年，我们迈出了重要的一步：PRS首套1W大网商用系统上线。“1W大网”能够管理一万个等效网元，为了有效处理海量T级别网络性能数据，我们首次引入了“Hadoop分布式集群系统”。同时，我们还有灵活管理规模小于一万个网元的 “PRS小网”系统，它一直依赖于公司自主研发的高斯数据库来存储数据。因此在大网商用之初，研发团队面临的一大挑战便是同时维护Hadoop和高斯两套技术栈。
    """
1
2
3
4
5
6
7
8
9

输出结果： output.wav

官网相关文档

https://fish.audio/zh-CN/about/    # 官方
https://speech.fish.audio/samples/ # 示例
https://github.com/fishaudio/fish-speech # 源码地址
1
2
3

使用硬件要求

GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows

此处介绍的是ubuntu系统上的安装与使用。本文使用的windows 子系统ubuntu22.04

安装

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
python3 -m venv sp_venv
source sp_venv/bin/activate

# 安装 pytorch
pip3 install torch torchvision torchaudio -i  https://pypi.tuna.tsinghua.edu.cn/simple

# 下载fish-speech 代码
git clone https://github.com/fishaudio/fish-speech

# 安装 fish-speech
cd fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

下载模型文件
方法一：官网给定的下载模型文件命令：python ./tools/download_models.py
但是由于网络原型，可能下载不成功。如果有翻墙工具，可以下载。
方法二：通过 modelscope 社区进行下载：https://modelscope.cn/models/AI-ModelScope/fish-speech-1.2/files

cd fish-speech
mkdir checkpoints/fish-speech-1.2-sft
1
2

在这里插入图片描述
将下载的模型文件拷贝到 fish-speech-1.2-sft 文件夹下
如果使用的windows 子系统可以使用一下命令

wsl cp config.json /home/km/fish-speech/checkpoints/fish-speech-1.2-sft
1

使用
使用方法有两种，
一种是通过 web UI 使用，更直观，便捷
一种是通过API方式，更灵活，移植性更大

web UI

python -m tools.webui \
    --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \
    --decoder-config-name firefly_gan_vq
1
2
3
4

在这里插入图片描述
启动后 web : http://127.0.0.1:7860

API 方式使用

python -m tools.api \
    --listen 0.0.0.0:8080 \
    --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \
    --decoder-config-name firefly_gan_vq
1
2
3
4
5

使用

python -m tools.post_api \
    --text "要输入的文本" \
    --reference_audio "参考音频路径" \
    --reference_text "参考音频的文本内容" \
    --streaming True
1
2
3
4
5

参考音频路径可以在 https://speech.fish.audio/samples/ 中下载一个参考音频。也可以使用自己创建的音频文件。
注意格式为：wav
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/906852