赞
踩
作者:禅与计算机程序设计艺术
在本次分享中,主要介绍一种开源的多语言TTS模型(Text-to-Speech Model)设计方法及其实现。该模型由多个语种的数据组成,通过训练得到的模型可以合成输入文本的音频信号。本文假设读者对自然语言处理、机器学习、语音合成等相关知识有一定的了解。欢迎各位参与讨论!
TTS系统的目标就是将文字转换为语音信号并播放出来,它可以应用于各种场景,如聊天机器人、虚拟助手、电视节目、新闻播报等。目前市面上存在很多开源的TTS系统,如谷歌的声音迅雷、Amazon的Polly、讯飞的声音云、科大讯飞的Turing Tantrum等,但它们都需要按照特定的流程、规则进行文字转化,制作音频文件等,而且各个系统之间输出的音质不尽相同。因此,开发一个通用的TTS系统具有巨大的实际意义。
传统的TTS系统通常有两种方式生成音频:即特征提取法与神经网络法。首先,特征提取法就是通过分析已有的音频库或语料库中的语音特征,构造出一个生成模型。然后利用这些特征预测下一个要生成的音频片段。这种方法能够生成具有一定音调和语气的连贯音频,但是音素识别率较低;而神经网络法则是在向量空间中进行语音建模,利用神经网络进行端到端的训练和优化,可以生成高质量的音频,但是语料库要求相对较大且不断更新,训练过程十分耗时。因此,目前,绝大部分的TTS系统采用的是特征提取法。
随着人工智能的发展,越来越多的任务被赋予了机器的能力,其中包括语音合成。但是,由于各个语言的发展差异,导致当今大多数语音合成系统仅支持少数语言的语音
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。