当前位置:   article > 正文

Utterance-Level Aggregation For Speaker Recognition In The Wild

utterance-level

本文使用NetVLAD,将frame-level聚合为utterance-level。
in the wild: 4s以上的语音

实现流程
在这里插入图片描述

将通过Thin ResNet的frame-level通过NetVLAD聚合为utterance-level。
网络输入为R(257×T×1),输出变为了R(1×T/32×512)

NetVLAD: 输出一个K×D的矩阵V,K为聚类类别数,D为每一类的维数。
在这里插入图片描述

第一项代表了这一帧特征在类别k的权重,第二项代表了其与类中心的残差。
最后将每帧向量L2标准化后连接起来。

在GhostVLAD中,一些类并不参与最后的连接,因此可以剔除一些噪声段

实验


在这里插入图片描述

在GhostVLAD中,聚类数与损失函数对结果影响不大。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/352544
推荐阅读
相关标签
  

闽ICP备14008679号