当前位置:   article > 正文

YOLO蒸馏原理篇之---MGD、CWD蒸馏_掩蔽生成知识蒸馏

掩蔽生成知识蒸馏

一、MGD蒸馏

论文地址:https://arxiv.org/abs/2205.01529
论文翻译:https://mp.weixin.qq.com/s/FSvo3ns2maTpiTTWsE91kQ

1.1 摘要
知识蒸馏已成功应用于各种任务。当前的蒸馏算法通常通过模仿教师的输出来提高学生的表现。本文表明,教师还可以通过指导学生的特征恢复来提高学生的表征能力。从这个角度来看,我们提出了掩蔽生成蒸馏(MGD):通过屏蔽学生特征的随机像素,并迫使它通过一个简单的块来生成教师的完整特征。
MGD是一种真正通用的基于特征的蒸馏方法,可用于各种任务,包括图像分类、目标检测、语义分割和实例分割。

1.2 论文要点
1)引入了一种新的基于特征的知识蒸馏方法,它使学生通过其掩码特征生成教师的特征,而不是直接模仿。
2)提出了一种新的基于特征的蒸馏方法——掩蔽生成蒸馏,它简单且易于使用,仅有两个超参数。
3)通过对不同数据集的大量实验来验证该方法在各种模型上的有效性。对于图像分类和密集预测任务,学生使用 MGD 取得了显着的改进。

1.3 主要内容
基于特征的蒸馏可以应用于分类和密集预测。对特征蒸馏的基本方法可以表述为:
在这里插入图片描述
其中,FT和FS分别表示教师和学生的特征,falign是将学生的特征FS与教师的特征FT对齐的自适应层。C、H、W代表特征图的形状。
MGD总体框架流程:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/828602
推荐阅读
相关标签
  

闽ICP备14008679号