赞
踩
今天看到GitHub上开源了一个非常厉害的AI语音生成模型ChatTTS,可以生成和人类声音非常接近的语音,而且有语气、语调、可以停顿和发出笑声,再也没有了以前的AI味道
体验地址:https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing
ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
大鹏自己运行了下,发现效果很不错,可以看下面的示例效果
感兴趣的朋友可以自己去尝试,HuggingFace地址是:https://huggingface.co/2Noise/ChatTTS
HuggingFace上面可能资源不足无法运行,可以使用谷歌的colab来运行
体验地址:https://colab.research.google.com/drive/1MYep5f0-BJevVdUZoBuMbjafTy1sfiCr?usp=sharing
将下面的代码放入其中执行即可,其中第一次运行估计要10分钟左右
先clone代码和安装包
!git clone https://github.com/2noise/ChatTTS
!mv ChatTTS test
!mv test/* .
!cat ChatTTS/__init__.py
!pip install omegaconf
!pip install vocos
!pip install vector_quantize_pytorch
!pip install nemo_text_processing
再运行chatTTS
import torch import ChatTTS from IPython.display import Audio chat = ChatTTS.Chat() chat.load_models() texts = [ '''我觉得mdnice是非常优秀的markdown编辑器[laugh], 可以用来作微信排版还有写作[uv_break], 欢迎大家多多使用,使用了之后我请您吃葡萄, 吃葡萄不吐葡萄皮[laugh],不吃葡萄倒吐葡萄皮 '''] params_refine_text = { 'prompt': '[oral_2][laugh_0][break_6]' } wavs = chat.infer(texts, params_refine_text=params_refine_text, use_decoder=True) Audio(wavs[0], rate=24_000, autoplay=True)
本文由mdnice多平台发布
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。