赞
踩
论文:https://arxiv.org/abs/1503.02531
对于几乎所有的机器学习算法,一种简单的提高性能的方法,就是使用同样的数据集训练多个不同的模型,测试时取他们的各自预测值的加权平均作为整个算法的最终输出结果。然而,这样做的缺点也是非常明显的,多个模型的集合体积庞大,且运算需求极大,难以部署在大量用户的机器上。
因此,本文主要做出了以下两点贡献:
图 1
Knowledge Distillation 的整体框架如图 1 所示,下面介绍一下图中的几个概念:
soft targets 在训练过程中可以提供更大的信息熵,将已训练模型的知识更好地传递给新模型
图 2
在该方法中,只有 generalist model 耗时较长,剩余的 specialist model 由于训练数据较少,且相互独立,可以并行训练,因此整体运算量少了非常多。
但是,specialist model由于只使用特定类别的数据进行训练,因此模型对别的类别的判断能力几乎为0,导致非常容易过拟合,我们可以采用如下方法来解决:
测试阶段:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。