赞
踩
Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation
本文主要由LINE Corp.,Tokyo, Japan和NAVER Corp., Seongnam, Korea在2022.04.21发表的文章,主要使用Pitch-Shift和Voice Conversion进行情感数据增广,从而训练情感语音合成模型,具体的文章链接https://arxiv.org/pdf/2204.10020.pdf
(许久未更新,深感抱歉。我最近的任务更多工程模块实现,加上前两周身体不太舒服,因此没有读文章)
1 背景
情感语音合成的主要痛点之一就是情感语料的缺失,因此如何进行情感迁移成为该方向的热点。常用的方案主要包括使用multispeaker tts进行迁移或者使用Voice Conversion进行情感数据的转换。本文提到情感音频的数据的pitch变化比较丰富,因此使用Pitch-Shift进行数据增广,然后再使用Non-Parallel Voice Conversion进行情感数据转换,最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。
2 详细设计
(本文的方案流程很简单,比较有借鉴意义是Pitch-Shift进行数据增广)
本文的方案如图一所示,先使用pitch-shift算法进行数据增广(pitch-shift的算法如图2和公式2所示,即先把spectrogram分解 spectral envelopes 和 fine structures,然后对fine structures进行拉伸。fine structures指浊音的谐波结构,或者说基音频率整数倍的梳状谱结构。)。然后使用增广数据和原始数据训练VC模型,并生成目标说话人的情感数据。最后,使用目标说话人原始中性数据以及转换情感数据训练语音合成系统。
3 实验
本文的实验数据有中性、高兴和伤心三种数据。本文对比的系统以及使用的数据如table 1所示。具体的结果MOS值如table 2所示,即使拥有少数据量中性语料也可以训练情感TTS系统,其结果好于multispeaker进行迁移方案。最后图4说明pitch-shift算法可以更好地进行情感迁移。
4 总结
本文使用Pitch-Shift进行数据增广,然后再使用Non-Parallel Voice Conversion进行情感数据转换,最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。(私认为可借鉴的部分为Pitch-Shift进行数据增广)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。