赞
踩
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。
汇总合集:
最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。
https://github.com/2noise/ChatTTS
ChatTTS 是一个专门为对话场景设计的文本转语音模型,例如众所周知的GPT-4o这样的LLM助手对话任务。ChatTTS支持英文和中文两种语言,最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
模型亮点:
对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')
# pip install -r requirement.txt
# pip install Ipython
# pip install soundfile
from ChatTTS import Chat
from IPython.display import Audio
#下载模型
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')
chat = Chat()
chat.load_models(source='local', local_path=model_dir)
texts = ["你好,我是ChatTTS,很高兴认识大家",]
wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)
# save audio
import soundfile as sf
audio_data = wavs[0]
if len(audio_data.shape) > 1:
audio_data = audio_data.flatten()
output_file = './output_audio2.wav'
sf.write(output_file, audio_data, 24000)
print(f"Audio saved to {output_file}")
同时也可以使用如下命令
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。