机器学习笔记 - 文字转语音技术路线简述以及相关工具不完全清单

作者：从前慢现在也慢 | 2024-04-07 11:11:37

踩

一、TTS技术简述

今天的文本到语音转换技术（TTS）的目标已经不仅仅是让机器说话，而是让它们听起来像不同年龄和性别的人类。通常，TTS 系统合成器的质量是从不同方面进行评估的，包括合成语音的清晰度、自然度和偏好，以及人类感知因素，例如可理解性。

拼接合成（Concatenative Synthesis）的方法就是将预先录制好的语音片段存储在数据库中，根据输入文本，选择并拼接相应的语音片段来合成语音。这种方式语音质量高，自然度好。但需要大量的语音数据，灵活性较差，难以适应新的发音或语调变化。

一些开源项目Festival:、 MaryTTS、Flite等。

参数合成(Parametric Synthesis)的方法是使用统计模型来学习语音的声学特征，并根据输入文本生成语音参数，最终合成语音。其背后的想法是，如果我们能够对构成语音的参数进行近似，我们就可以训练一个模型来生成各种语音。参数方法结合参数，包括基频、幅度谱等，并处理它们以生成语音。

第一步，处理文本以提取语言特征，例如音素或持续时间。第二步需要提取声码器特征，例如倒谱、频谱图、基频等，这些特征代表人类语音的一些固有特征

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/378231?site