赞
踩
目录
也快到期末了,最近就基本不做别的事情,主要对期末进行复习和做自己喜欢的一些事情,下面是对自己发现的一个好玩的项目进行分享,如果不想太麻烦的话,直接看3.3有直接可以运行的版本进行使用.
ChatTTS(Chat Text-to-Speech)是一种技术,它允许计算机程序将文本转换成口语,即语音输出。这种技术广泛应用于各种场景,比如语音助手、电子书阅读器、自动电话系统、辅助技术等。用户输入文本,ChatTTS系统会将这些文本转换成语音,然后通过扬声器播放出来,或者通过音频文件保存。这种转换通常涉及到语音合成技术,包括自然语言处理和语音合成引擎,使得生成的语音听起来尽可能自然和流畅。
目前项目已通过Github加速,在Gitee存在备份
2noise/ChatTTS 在 upstract.com (github.com)https://github.com/2noise/ChatTTS?ref=upstract.com
使用这个的话是傻瓜式,但是有限制条件,首先需要进行科学上网以及需要有谷歌账号,其次运行起来比较慢,经过测试第一次部署后,生成一段20多秒的语音大概需要10分钟左右
点击进入后,登录谷歌账号
首先进入后先进行Ctrl+S进行保存,留到自己的盘中
接下来按照顺序进行点击运行,即可
在第二个安装依赖的运行时,会出现下面的重启会话,点击重启会话,然后再运行一次
然后继续按照顺序进行运行
到达这个运行窗口时,填入自己需要转换的文字写入,将其转换为语音,记住每次需要转换时都要运行这段代码,然后正常继续运行就可以了.
需要使Pycharm,需要Git或是将项目源码zip下载到本地
通过git进行克隆
2noise/ChatTTS 在 upstract.com (github.com)
下载zip推荐下面的这个,下载后是有-main的我把他去掉了;
ChatTTS:ChatTTS is a generative speech model for daily dialogue. - GitCode
如下图所示,先切换到下载或是克隆的文件目录下,然后运行打开命令框,输入命令,等待安装,当然如果中间出现报错,可以自行百度解决,一般我这样安装时就会出错,但是测试的时候发现没出错,说明,目前依赖什么的还是很适配的不会出现什么问题.
- PowerShell 7.4.2
- cd D:\ChatTTS
- pip install -r requirements.txt -i https://pypi.doubanio.com/simple/
为什么要介绍用法呢,因为接下来会用到
- import ChatTTS
- from IPython.display import Audio
-
- chat = ChatTTS.Chat()
- chat.load_models(compile=False) # Set to True for better performance
-
- texts = ["PUT YOUR TEXT HERE",]
-
- wavs = chat.infer(texts, )
-
- torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)
- ###################################
- # Sample a speaker from Gaussian.
-
- rand_spk = chat.sample_random_speaker()
-
- params_infer_code = {
- 'spk_emb': rand_spk, # add sampled speaker
- 'temperature': .3, # using custom temperature
- 'top_P': 0.7, # top P decode
- 'top_K': 20, # top K decode
- }
-
- ###################################
- # For sentence level manual control.
-
- # use oral_(0-9), laugh_(0-2), break_(0-7)
- # to generate special token in text to synthesize.
- params_refine_text = {
- 'prompt': '[oral_2][laugh_0][break_6]'
- }
-
- wav = chat.infer(texts, params_refine_text=params_refine_text, params_infer_code=params_infer_code)
-
- ###################################
- # For word level manual control.
- text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
- wav = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code)
- torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000)

- inputs_en = """
- chat T T S is a text to speech model designed for dialogue applications.
- [uv_break]it supports mixed language input [uv_break]and offers multi speaker
- capabilities with precise control over prosodic elements [laugh]like like
- [uv_break]laughter[laugh], [uv_break]pauses, [uv_break]and intonation.
- [uv_break]it delivers natural and expressive speech,[uv_break]so please
- [uv_break] use the project responsibly at your own risk.[uv_break]
- """.replace('\n', '') # English is still experimental.
-
- params_refine_text = {
- 'prompt': '[oral_2][laugh_0][break_4]'
- }
- # audio_array_cn = chat.infer(inputs_cn, params_refine_text=params_refine_text)
- audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)
- torchaudio.save("output3.wav", torch.from_numpy(audio_array_en[0]), 24000)
按照官方示例代码来一个test.py
- import ChatTTS
- from IPython.display import Audio
-
- chat = ChatTTS.Chat()
- chat.load_models()
-
- texts = ["我是测试文本", "你好,世界!"]
-
- wavs = chat.infer(texts, use_decoder=True)
-
- Audio(wavs[0], rate=24_000, autoplay=True)
然后进行运行或是python test.py进行运行都可以,运行后就会下载很多依赖项
推荐使用webui的方式来运行,界面如下
- git clone GitHub - cronrpc/ChatTTS-webui: TTS
-
然后安装依赖,依赖中少了一个gradio,需要单独安装
- pip install -r requirements.txt -i https://pypi.doubanio.com/simple/
-
- pip install gradio
然后运行python webui.py就可以打开界面进行使用了
下面是佬对进行项目进行打包的版本,有不同win,linux使用的介绍以及一些报错的解决方案
Releases · jianchang512/ChatTTS-ui (github.com)https://github.com/jianchang512/chatTTS-ui/releases
通过网盘进行下载解压后,,在文件中找到exe文件,记得需要通过管理员运行,运行完成后会出现图所示的界面,代表成功
一些基本的介绍在下面的图片中
在学习过程中对于配置环境以及接触新知识是一件比较重要的事情,借着这个好玩的项目,重新对安装依赖进行一个回忆.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。