当前位置:   article > 正文

语音合成(TTS)论文优选:​Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voi_如何在tts中加入语气情感

如何在tts中加入语气情感

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation

本文主要由LINE Corp.,Tokyo, Japan和NAVER Corp., Seongnam, Korea在2022.04.21发表的文章,主要使用Pitch-Shift和Voice Conversion进行情感数据增广,从而训练情感语音合成模型,具体的文章链接https://arxiv.org/pdf/2204.10020.pdf


(许久未更新,深感抱歉。我最近的任务更多工程模块实现,加上前两周身体不太舒服,因此没有读文章)

1 背景

情感语音合成的主要痛点之一就是情感语料的缺失,因此如何进行情感迁移成为该方向的热点。常用的方案主要包括使用multispeaker tts进行迁移或者使用Voice Conversion进行情感数据的转换。本文提到情感音频的数据的pitch变化比较丰富,因此使用Pitch-Shift进行数据增广,然后再使用Non-Parallel Voice Conversion进行情感数据转换,最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。

2 详细设计

(本文的方案流程很简单,比较有借鉴意义是Pitch-Shift进行数据增广)

本文的方案如图一所示,先使用pitch-shift算法进行数据增广(pitch-shift的算法如图2和公式2所示,即先把spectrogram分解 spectral envelopes 和 fine structures,然后对fine structures进行拉伸。fine structures指浊音的谐波结构,或者说基音频率整数倍的梳状谱结构。)​。然后使用增广数据和原始数据训练VC模型,并生成目标说话人的情感数据​。最后,使用目标说话人原始中性数据以及转换情感数据训练语音合成系统​。

 

3 实验

本文的实验数据有中性、高兴和伤心​三种数据。本文对比的系统以及使用的数据如table 1​所示。具体的结果MOS值如table 2所示,即使拥有少数据量中性语料也可以训练情感​TTS系统,其结果好于multispeaker进行迁移方案​。最后图4说明pitch-shift算法可以更好地进行情感​迁移。

 

 

4 总结

​本文使用Pitch-Shift进行数据增广,然后再使用Non-Parallel Voice Conversion进行情感数据转换,最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。(私认为可借鉴的部分为Pitch-Shift进行数据增广)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/697854
推荐阅读
相关标签
  

闽ICP备14008679号