赞
踩
neutral codec:AudioLM使用SoundStream neutral codec提取的tokens(降采样),作为序列建模的target,而且tokens可以被重建为语音。
SoundStream:多级残差量化器(VQ量化),CNN下采样,输入音频表征为 { 1 , 2 , . . . , N } T a × Q \left \{ 1,2,...,N \right \}^{T_a\times Q} {1,2,...,N}Ta×Q,其中 T a T_a Ta是下采样后的音频长度,N=1024,Q个量化器,本文使用的预训练Q=4,基于16k音频320倍下采样。soundstream的decoder使用重建损失+对抗损失训练。
w2v-BERT:基于masked language modeling loss和对比学习loss训练,使用预训练模型MLM结构的中间层,计算kmeans结果,取embedding在kmeans上映射的质心作为semantic tokens,下采样率640倍。(实验发现,kmeans聚类之前先对w2v-BERT进行norm,更有利于音素信息的表征)。其实和hubert结构提取的特征本质是一样的。
使用层级结构预测semantic tokens和aoucstic tokens,首先预测整个序列的semantic tokens,然后使用semantic tokens作为条件预测acoustic tokens。主要原因是(1) p ( z t ∣ z < t , y < t ) ~ p ( z t ∣ z < t ) p(z_t|z<t,y<t)~p(z_t|z<t) p(zt∣z<t,y<t)~p(zt∣z<t),给定past semantic tokens,当前的semantic tokens可以和acoustic tokens条件独立。(2)每个阶段的序列长度缩短(因为acoustic tokens的多级预测是横向拼接的,会导致计算长度很长N*Q),减少计算量。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。