赞
踩
字节跳动的SEED TTS(Seed-TTS)是一系列大规模自回归文本转语音(TTS)模型,能够生成与人类语音几乎没有区别的高质量语音。该模型在语音上下文学习方面表现出色,尤其在说话者相似度和自然度方面的表现,与真实人类语音相匹配。
Seed-TTS 模型主要由语音分词器、语言模型、扩散模型、 语音合成器组成。
Seed-TTS 模型的训练过程可以分为三个阶段:
与传统说话人调整模型的对比: 与传统的说话人调整模型相比,Seed-TTS 在“常见”说话人集上表现出明显的优势,但在“困难”说话人集上仍然存在一定的差距。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。