当前位置:   article > 正文

机器学习笔记 - 文字转语音技术路线简述以及相关工具不完全清单

机器学习笔记 - 文字转语音技术路线简述以及相关工具不完全清单

一、TTS技术简述

        今天的文本到语音转换技术(TTS)的目标已经不仅仅是让机器说话,而是让它们听起来像不同年龄和性别的人类。通常,TTS 系统合成器的质量是从不同方面进行评估的,包括合成语音的清晰度、自然度和偏好,以及人类感知因素,例如可理解性。

1、技术路线

(1)基于拼接合成的方法

        拼接合成(Concatenative Synthesis)的方法就是将预先录制好的语音片段存储在数据库中,根据输入文本,选择并拼接相应的语音片段来合成语音。 这种方式语音质量高,自然度好。 但需要大量的语音数据,灵活性较差,难以适应新的发音或语调变化。

        一些开源项目Festival:、 MaryTTS、Flite等。

(2)基于参数合成的方法

        参数合成(Parametric Synthesis)的方法是使用统计模型来学习语音的声学特征,并根据输入文本生成语音参数,最终合成语音。其背后的想法是,如果我们能够对构成语音的参数进行近似,我们就可以训练一个模型来生成各种语音。参数方法结合参数,包括基频、幅度谱等,并处理它们以生成语音。

        第一步,处理文本以提取语言特征,例如音素或持续时间。第二步需要提取声码器特征,例如倒谱、频谱图、基频等,这些特征代表人类语音的一些固有特征

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/378231
推荐阅读
相关标签
  

闽ICP备14008679号