赞
踩
本文使用NetVLAD,将frame-level聚合为utterance-level。
in the wild: 4s以上的语音
实现流程
将通过Thin ResNet的frame-level通过NetVLAD聚合为utterance-level。
网络输入为R(257×T×1),输出变为了R(1×T/32×512)
NetVLAD: 输出一个K×D的矩阵V,K为聚类类别数,D为每一类的维数。
第一项代表了这一帧特征在类别k的权重,第二项代表了其与类中心的残差。
最后将每帧向量L2标准化后连接起来。
在GhostVLAD中,一些类并不参与最后的连接,因此可以剔除一些噪声段
实验
在GhostVLAD中,聚类数与损失函数对结果影响不大。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。