赞
踩
一、MGD蒸馏
论文地址:https://arxiv.org/abs/2205.01529
论文翻译:https://mp.weixin.qq.com/s/FSvo3ns2maTpiTTWsE91kQ
1.1 摘要
知识蒸馏已成功应用于各种任务。当前的蒸馏算法通常通过模仿教师的输出来提高学生的表现。本文表明,教师还可以通过指导学生的特征恢复来提高学生的表征能力。从这个角度来看,我们提出了掩蔽生成蒸馏(MGD):通过屏蔽学生特征的随机像素,并迫使它通过一个简单的块来生成教师的完整特征。
MGD是一种真正通用的基于特征的蒸馏方法,可用于各种任务,包括图像分类、目标检测、语义分割和实例分割。
1.2 论文要点
1)引入了一种新的基于特征的知识蒸馏方法,它使学生通过其掩码特征生成教师的特征,而不是直接模仿。
2)提出了一种新的基于特征的蒸馏方法——掩蔽生成蒸馏,它简单且易于使用,仅有两个超参数。
3)通过对不同数据集的大量实验来验证该方法在各种模型上的有效性。对于图像分类和密集预测任务,学生使用 MGD 取得了显着的改进。
1.3 主要内容
基于特征的蒸馏可以应用于分类和密集预测。对特征蒸馏的基本方法可以表述为:
其中,FT和FS分别表示教师和学生的特征,falign是将学生的特征FS与教师的特征FT对齐的自适应层。C、H、W代表特征图的形状。
MGD总体框架流程:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。