语音合成技术简介_语音合成算法

作者：从前慢现在也慢 | 2024-03-30 23:23:05

踩

语音合成算法

前言

语音合成，通常又称文语转换（Text To Speech，TTS），是一种可以将任意输入文本转换成相应语音的技术，是人机语音交互中不可或缺的模块之一。
传统的语音合成系统 通常包含 前端和后端 两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息。对中文合成系统来说，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形。
传统的语音合成系统的不足： 传统的语音合成系统，都是相对复杂的系统，比如，前端系统需要较强的语言学背景，并且不同语言的语言学知识还差异明显，因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解，由于传统的参数系统建模时存在信息损失，限制了合成语音表现力的进一步提升。而同为后端系统的拼接系统则对语音数据库要求较高，同时需要人工介入制定很多挑选规则和参数。
端到端语音合成系统： 直接输入文本或者注音字符，系统直接输出音频波形。端到端系统降低了对语言学知识的要求，可以很方便在不同语种上复制，批量实现几十种甚至更多语种的合成系统。并且端到端语音合成系统表现出强大丰富的发音风格和韵律表现力。
语音合成根据应用的算法思想的不同，总体可以分为两类：基于统计参数的语音合成（传统）、基于深度学习的语音合成（端到端）。

一、传统语音合成系统

1. 总体框架

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/342249

语音合成技术简介_语音合成算法

文章目录

前言

一、传统语音合成系统

1. 总体框架