赞
踩
SpeechT5 将speech和text投射到共享高维空间中,提取通用模态表征。
encoder-decoder的结构,以及six modal-specific (speech/text) pre/post-nets,单独处理text和speech。
在多项下游任务中取得优势,包括ASR、TTS、speech translation,VC,speech identification (SID),speech enhancement (SE)
预训练模型在NLP上有成功,在语音任务上也有wav2vec,HuBERT这样成功的先例。
但是现有的语音预训练模型存在的问题是:(1)大部分通过无标签的speech数据自监督训练,忽略了文本数据的重要性,对于一些语言任务缺乏模态转换的能力;(2)大部分模型仅依靠pretrained speech encoder,然后就对接下游任务。没有预训练的decoder用于seq2seq的生成。
本文提出SpeechT5模型,unified- modal pre-training framework,充分利用无标签的音频和文本数据,完成speech到text之间的转换(多种形式)。不同的prenet分别将speech/text映射到同一共享空间,encoder-decoder的网络完成seq2seq的转换,然后经由单独的postnet生成speech/text。
对于text和speech数据对齐的问题,(1)将speech/text映射到共享的vector quantization space,(2)随机的混合quantized latent representations以及 contextual states, 可以帮助量化器更好的进行跨模态建模。
- 重建损失 L1 loss + BCE stop tokens loss
Y
=
s
p
e
e
c
h
−
d
e
c
o
d
e
r
−
p
o
s
t
n
e
t
−
o
u
t
p
u
t
,
X
:
输入
Y= speech-decoder-postnet-output, X:输入
Y=speech−decoder−postnet−output,X:输入
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。