Distilling the Knowledge in a Neural Network 论文笔记_generalist model论文

作者：繁依Fanyi0 | 2024-06-17 15:47:44

踩

generalist model论文

一、简介

对于几乎所有的机器学习算法，一种简单的提高性能的方法，就是使用同样的数据集训练多个不同的模型，测试时取他们的各自预测值的加权平均作为整个算法的最终输出结果。然而，这样做的缺点也是非常明显的，多个模型的集合体积庞大，且运算需求极大，难以部署在大量用户的机器上。

因此，本文主要做出了以下两点贡献：

提出一种 知识蒸馏（Knowledge Distillation）方法，从大模型所学习到的知识中学习有用信息来训练小模型，在保证性能差不多的情况下进行模型压缩
提出一种新的 集成模型（Ensembles of Models）方法，包括一个通用模型（Generalist Model）和多个专用模型（Specialist Models），其中，专用模型用来对那些通用模型无法区分的细粒度（Fine-grained）类别的图像进行区分

图 1

Knowledge Distillation 的整体框架如图 1 所示，下面介绍一下图中的几个概念：

soft targets 在训练过程中可以提供更大的信息熵，将已训练模型的知识更好地传递给新模型

softmax：

其中 qi 表示第 i 类的输出概率，zi、zj 表示 softmax 层的输入（即 logits），T 为温度系数，用来控制输出概率的soft程度。
温度系数 T 的意义可以用如下图 2 来理解，图中红，绿，蓝分别对用同一组z在T为（5，25，50）下的值，可以看出，T越大，值之间的差就越小（折线更平缓，即更加的 soft），但是相对的大小关系依然没变。

图 2

distilled model 的 目标函数由以下两项的加权平均组成：

当数据集非常巨大以及模型非常复杂时，训练多个模型所需要的资源是难以想象的，因此提出一种新的集成模型方法，包括：

Specialist models 的训练集中，一半是初始训练集中某些特定类别的子集（special subset），另一半由剩余初始训练集中随机采样组成

在该方法中，只有 generalist model 耗时较长，剩余的 specialist model 由于训练数据较少，且相互独立，可以并行训练，因此整体运算量少了非常多。

但是，specialist model由于只使用特定类别的数据进行训练，因此模型对别的类别的判断能力几乎为0，导致非常容易过拟合，我们可以采用如下方法来解决：

当 specialist model 通过 hard targets 训练完成后，再使用由 generalist model 生成的 soft targets 进行 finetune，这样做是因为 soft targets 保留了一些对于其他类别数据的信息，因此模型可以在原来基础上学到更多知识，有效避免了过拟合

训练阶段：

测试阶段：

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】