当前位置: article > 正文

【人工智能】Transformers之Pipeline（三）：文本转音频（text-to-audio/text-to-speech）_transforms pipelinw

作者：小桥流水78 | 2024-08-04 21:14:17

踩

transforms pipelinw

一、引言

pipeline（管道）是huggingface transformers库中一种极简方式使用大模型推理的抽象，将所有大模型分为音频（Audio）、计算机视觉（Computer vision）、自然语言处理（NLP）、多模态（Multimodal）等4大类，28小类任务（tasks），共计覆盖32万个模型。

今天介绍Audio的第三篇，文本转音频（text-to-audio/text-to-speech），在huggingface库内共有1978个音频分类模型，其中1141个是由facebook生成的不同语言版本，其他公司发布的仅有837个。

二、文本转音频（text-to-audio/text-to-speech）

2.1 概述

文本转音频（TTS），与上一篇音频转文本（STT）是对称技术，给定文本生成语音，实际使用上，更多与语音克隆技术相结合：先通过一段音频（few-show）进行声音克隆，再基于克隆的音色和文本生成语音。应用场景极多，也是人工智能领域最易看到成果的技术，主要应用场景有读文章、音乐生成、短视频智能配音、游戏角色智能配音等。

2.2 技术原理

2.2.1 原理概述

当前比较流行的做法还是基于transformer对文本编码与声音编码进行对齐，声音方面先产生一个对数梅尔频谱图，再使用一个额外的神经网络（声码器）转换为波形。

模型类别上，以suno/bark为代表的语音生成和以xtts为代表的声音克隆+语音生成各占据半壁江山，使用比较多的模型如下

2.2.2 语音生成（zero-shot）

suno/bark：suno出品，天花板，支持笑容、男女声设定、音乐设定等。支持pipeline
2noise/ChatTTS：国产品牌，突破天花板。不支持pipeline，需要下载项目包
BytedanceSpeech/seed-tts-eval：字节出品。不支持pipeline，需要下载项目包

2.2.3 声音克隆+语音生成（few-shot）

coqui/XTTS-v2：酷趣青蛙，几秒的语音样本即可完成克隆。支持pipeline生成，但克隆需要使用pypi的TTS包
fishaudio/fish-speech-1.2：鱼语，国产，同样几秒的语音样本即可完成克隆。支持pipeline生成，但克隆需要下载项目。

2.3 pipeline参数

2.3.1 pipeline对象实例化参数

( *args, vocoder = None, sampling_rate = None, **kwargs )

2.3.2 pipeline对象使用参数

text_inputs（str或List[str]）——要生成的文本。
forward_params（dict，可选）— 传递给模型生成/转发方法的参数。forward_params始终传递给底层模型。
generate_kwargs（dict，可选generate_config）—用于生成调用的临时参数化字典。

2.3.3 pipeline对象返回参数

audio（np.ndarray形状(nb_channels, audio_length)）——生成的音频波形。
samples_rate (int) — 生成的音频波形的采样率。

2.4 pipeline实战

2.4.1 suno/bark-small（默认模型）

pipeline对于text-to-audio/text-to-speech的默认模型是suno/bark-small，使用pipeline时，如果仅设置task=text-to-audio或task=text-to-speech，不设置模型，则下载并使用默认模型。


import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
 
import scipy
from IPython.display import Audio
from transformers import pipeline
pipe = pipeline("text-to-speech")
result = pipe("Hello, my dog is cooler than you!")
sampling_rate=result["sampling_rate"]
audio=result["audio"]
print(sampling_rate,audio)
scipy.io.wavfile.write("bark_out.wav", rate=sampling_rate, data=audio)
Audio(audio, rate=sampling_rate)

可以将文本转换为语音bark_out.wav。

bark支持对笑声、男女、歌词、强调语气等进行设定，直接在文本添加：

[laughter]
[laughs]
[sighs]
[music]
[gasps]
[clears throat]
—或...犹豫
♪歌词
大写以强调单词
[MAN]并[WOMAN]分别使 Bark 偏向男性和女性说话者

同时，pipeline可以指定任意的模型，模型列表参考TTS模型库。

2.4.2 coqui/XTTS-v2语音克隆

参考官方文档：可以使用python或命令行2种方式轻松使用model_list内的模型，优先要安装TTS的pypi包：

pip install TTS -i https://mirrors.cloud.tencent.com/pypi/simple

2.4.2.1 语音转换（参考语音，将语音生成语音）

python版本：


import torch
from TTS.api import TTS
 
# Get device
device = "cuda" if torch.cuda.is_available() else "cpu"
 
# List available 声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/929512
推荐阅读
article【翻译】Transformers in Computer Vision_rethinking spa...
比较了CNN和ViT在CV中的情况。_rethinking spatial dimensions of vision t...
                                    赞
踩
article盘点3种Python网络爬虫过程中的中文乱码的处理方法_python text 乱码...
Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的...
                                    赞
踩
article【人工智能】反向传播算法及梯度下降法_反向传播和梯度下降算法...
本文详细介绍了反向传播算法的工作原理，包括其通过计算误差调整权重的过程，以及在深度学习中的应用，特别是与梯度下降法（包括...
                                    赞
踩
article【人工智能】-- 反向传播_人工智能反向传播...
反向传播（Backpropagation）是一种在人工神经网络中用于计算误差梯度并据此调整网络参数（如权重和偏置）的数学...
                                    赞
踩
article人工智能——反向传播网络_人工智能技术传输网 csdn...
这篇文章简单介绍了人工智能中有关反向传播网络及其学习算法的一些知识。_人工智能技术传输网 csdn人工智能技术传输网 c...
                                    赞
踩
article人工智能/机器学习基础知识——反向传播_反向传播你不得不了解的小知识...
人工智能/机器学习基础知识——反向传播_反向传播你不得不了解的小知识反向传播你不得不了解的小知识            ...
                                    赞
踩
article人工智能-机器学习-深度学习-分类与算法梳理_ai-机器学习-深度学习...
目前人工智能的概念层出不穷，容易搞混，理清脉络，有益新知识入脑。_ai-机器学习-深度学习ai-机器学习-深度学习   ...
                                    赞
踩
article2023-2024年 计算机毕业设计选题合集推荐大全 人工智能 大数据 通信工程 计科 软件工程_计...
2023-2024年 计算机毕业设计选题合集推荐大全 人工智能 大数据 通信工程 计科 软件工程选题合集涵盖了管理系统、...
                                    赞
踩
article人工智能 自动规划 ppt 蔡自兴_分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视...
关注微信公众号：人工智能前沿讲习对话框回复"张家绮"获取PPT与视频资料视频资料可点击→播放视频查看导读分布式优化理论和...
                                    赞
踩
article实时追踪科研动态丨7.7精选新论文，附ChatPaper综述_synthesizing artist...
作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科...
                                    赞
踩
articleTransformers 自然语言处理（四）_this john verb transformer...
Shi和Lin(2019)推进并证明了一个想法，即我们可以找出谁做了什么以及在哪里，而不依赖于词汇或句法特征。本章基于P...
                                    赞
踩
article【人工智能】AI绘画...
AI绘画作为科技与艺术交汇的新时代产物，正以其独特的魅力和无限的可能性改变着我们的艺术创作方式和审美体验。虽然它仍面临着...
                                    赞
踩
article【人工智能】大模型的发展历史_大模型的发展历程...
2012年以后的深度学习热潮：2012年，AlexNet横空出世，以卷积神经网络（CNN）为代表的深度学习模型在计算机视...
                                    赞
踩
article阿里发布革新的音频多模态模型 Qwen2-Audio；月之暗面回应大模型显示「9.11 大于 9.9...
阿里云、AI视频、月之暗面_qwen2 上传文件 多模态qwen2 上传文件 多模态                  ...
                                    赞
踩
articleCosyVoice：开创多语言零样本文本到语音合成的新纪元_cosyvoice: a scalabl...
在人工智能的神奇世界里，文本到语音（Text-to-Speech, TTS）技术正逐步褪去机器的生硬外壳，向着自然流畅、...
                                    赞
踩
article人工智能--循环神经网络_人工智能lstm循环神经网络...
循环神经网络是一类具有反馈连接的神经网络，能够处理任意长度的序列数据，通过在隐藏层中引入循环连接，使得网络能够记住过去的...
                                    赞
踩
article[人工智能-深度学习-50]：循环神经网络 - 主要的应用场景_循环神经网络的应用领域...
作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://bl...
                                    赞
踩
article人工智能--基于循环神经网络的新闻话题分类_用rnn进行新闻分类...
理解循环神经网络RNN的基本原理和掌握利用循环神经网络进行文本分类的方法_用rnn进行新闻分类用rnn进行新闻分类   ...
                                    赞
踩
article人工智能--深度神经网络_人工智能的深度神经网络...
人工智能（AI）是计算机科学的一个分支，旨在模拟或仿效人类智能。深度神经网（DNN）是AI的一个子领域，因其在图像识别、...
                                    赞
踩
article[人工智能-深度学习-48]：循环神经网络 - RNN是循环神经网络还是递归神经网络？_用于人体运动...
作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：目录前言：一、什么是...
                                    赞
踩
相关标签
计算机视觉
深度学习
transformer
python
爬虫
开发语言
人工智能
大数据
算法
反向传播
数学
机器学习
pytorch
AI编程
分类
毕业设计
毕设
网络安全
安全