赞
踩
指标 | wav2vec | wav2vec 2.0 | HuBert |
---|---|---|---|
mask方式 | 没有 | mask encoder送给transformer的输入 | mask encoder送给transformer的输入 |
mask长度 | encoder上的若干连续step, step=10 | step=10 | step=10 |
改进点 | base | 引入量化 | 改善量化的位置&kmeans迭代聚类 |
损失函数 | 二值对比损失 | 对比损失+多样性损失 | 对比损失 |
量化 | 无 | 量化encoder的输出 | 量化transformer的输出以及中间层 |
z
=
e
n
c
o
d
e
r
n
e
t
w
o
r
k
(
X
)
z = encoder network (X)
z=encodernetwork(X)
c
=
c
o
n
t
e
x
t
n
e
t
w
o
r
k
(
z
i
,
.
.
.
,
z
i
−
u
)
c = context network(z_i, ..., z_{i-u})
c=contextnetwork(zi,...,zi−u)
- 对比损失: $z_t$mask掉,预测的$c_t$和量化的结果$q_t$计算距离;负样本$q^~}$来自干扰器(同一句话中其他masked step的正态采样)
- 多样性损失:训练码本量化过程。损失函数$L_d$,最大化概率分布
2021 TASLP期刊
Wei-Ning Hsu
X= CNN Encoder(wav),降维
Z=Transformer(X),时序建模,输入的X有一定比例 α \alpha α的mask, L u L_u Lu表示unmasked部分
Z和聚类结果求loss
first iteration:39-d MFCC用kmeans(k=100)聚类;
subsequent iterations:kmeans=500,作用对象transformer的中间层。对960h小时数据抽样10%用于聚类(整体都聚耗费太大)
scikit-learn实现的MiniBatchKMeans包,mini-batch size=10000frames,20个随机的starts for better init。
比较不同数据类型&数据量下聚类结果,(方差越小,聚类结果越稳定)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。