赞
踩
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
The IQIYI System for Voice Conversion Challenge 2020
本文章为爱奇艺参加voice conversion challenge 2020的文章,主要完成大赛的两个任务:相同语言转换和跨语言转换。最终结果为相似度还算不错能排第五,但自然度MOS评测相对低很多。文章链接为https://arxiv.org/pdf/2010.15317.pdf
1 背景
为了促进voice conversion的发展,从2016年开始每两年举行一次voice conversion大赛。本次大赛主要有两个任务:task 1: 相同语言之间的转换;task2: 跨语言进行转换;爱奇艺为了参加该大赛,使用了最新的技术 BN feature + tacotron + lpcnet。最终的结果为相似度第五,客观指标第二,自然度mos的话很低(我看最终表图,自然度mos也就差不多3左右,文章却标注为3.9,这点我看不明白)
2 详细的系统
voice conversion 主要分为两个阶段:训练阶段和转换阶段。训练阶段是先使用目标音频来提取mel特征,bn 特征和韵律特征,然后训练基于tacotron的转换模型和声码器lpcnet。转换阶段是使用源音频提取特征,然后经过转换模型和声码器产生目标音色的音频。具体过程如图1所示。
其中,conversion模型是基于tacotron和声码器lpcnet来做(如图2,图3,图4),这些系统结构不详细讲解,看图就可以明白。(其中对我来说可借鉴的是prosody部分,我跑vc的效果是中文发音人产生的英语音频具有浓浓的中式英文,因此可以添加该模块改善英语发音的韵律问题)
3 结果
结果评测主要主观和客观两个指标进行评测。先进行自然度mos测试,如图4所示,这里我很迷惑,看图标的mos值T24的值差不多也就3的样子,文章却说mos为3.9!!!图6到9为相似性mos,这个还不错排名第五。图10为客观指标评测,排名为第二。
4 总结
现在vc的方案很多基于end-to-end的tacotron来做,基本上都是:(bn/ppg)+tacotron+lpcnet。这些方案我也跑过,其中也存在一些问题,比如现在做跨语言转换有点中式英文的味道,这些还需要做进一步的韵律和风格的迁移。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。