赞
踩
现有端到端TTS方案的缺点:(1)相比于级联系统没有明显的性能提升,比如FastSpeech 2s, EATS,WAVE-TACOTRON;(2)自回归生成导致的infer速度变慢,比如WAVE-TACOTRON;(3)训练复杂度提升,比如VITS,Clar- iNet ;(4)依赖信号变换之后的声学特征,比如FastSpeech 2s依赖mel-spec,VITS依赖linear-spec,尽管这些特征是语音的简要表示,但是仍然有信息的丢失。
本文提出:
Discriminator Loss : 判别器中的下采样方法由average pooling操作替换成discrete wavelet transform ,分成多个频率子带,有助于高频建模;
Codec Decoder Loss
Acoustic Model Loss
joint loss
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。