当前位置:   article > 正文

Distilling the Knowledge in a Neural Network阅读笔记_hinton, geoffrey, oriol vinyals, and jeff dean. "d

hinton, geoffrey, oriol vinyals, and jeff dean. "distilling the knowledge in

文章背景知识

文章就是将大网络的知识想办法迁移到小网络。所以背景知识就是普通的机器学习知识,包括神经网络,softmax函数等等。

1.介绍文章来源

第一作者是Geoffrey Hinton,号称人工智能三大创始人(Geoffrey Hinton、Yann LeCun与YoshuaBengio)之一,神经网络之父,谷歌高级专家,谷歌学术引用达到了24w。

第二作者Oriol Vinyals:年少成名,《星际争霸》游戏第一。后来后参与了tensorflow和mapreduce的开发,同是谷歌研究院。学术引用67000。

第三作者Jeff Dean:谷歌研究员,tensorflow和mapreduce的主要研究者,谷歌引用95000。

2.作者要完成什么

作者最主要的工作就是提出了模型蒸馏并验证。

“蒸馏”(distillation):把大网络的知识压缩成小网络的一种方法。

再在第三个实验的地方,又提出了专家网络。

3.作者怎样完成的

这里一个可行的办法是使用大模型生成的模型类别概率作为“soft targets”(使用蒸馏算法以后的概率,相对应的 head targets 就是正常的原始训练数据集)来训练小模型,由于 soft targets 包含了更多的信息熵,所以每个训练样本都提供给小模型更多的信息用来学习,这样小模型就只需要用更少的样本,及更高的学习率去训练了。

4.论文中的关键数学推导、算法

关键的部分就是模型蒸馏,就是改造了softmax,能让概率输出的差距不是那么大。



 

其中T就是温度。当 T = 1 是就是常规的 Softmax,而升温T,对softmax进行蒸馏,函数的图像会变得越来越平滑。

5.文章的实验部分是怎么设计的?

实验有四个部分,很详细的验证了作者的思想。

第一个:

第一个实验很简单,用了MINST数据集做实验,作者自己定义了两个网络,效果如下:



 

接着以net1作为教师网络,net2作为学生网络,训练结果如下:



 

第二个:

这是在 Automatic Speech Recognition(ASR)上的实验。其中basline的配置为8 层,每层2560个relu单元,softmax层的单元数为14000,训练样本大小约为700M,2000个小时的语音文本数据。

10XEnsemble是对baseline训练10次(随机初始化为不同参数)然后取平均;

蒸馏模型的配置为使用的候选温度为{1,2, 5, 10}, 其中T为2时表现最好



 

第三个:



作者在这里提到了专家网络,先来看看数据集JST,这是谷歌内部的一个数据集,有1亿张图片,15000个label,谷歌曾今为了训练他弄了六个月。训练一个大的集成模型可以利用并行计算来训练,训练完成后把大模型蒸馏成小模型,但是另一个问题就是,训练本身就要花费大量的时间,这一节介绍的就是如何学习专用模型集合,集合中的每个模型集中于不同的容易混淆的子类集合,这样可以减小计算需求。效果如下:



 

第四个:

这个又回归了类似前两个的实验。主要是为了对比soft target和hard target的效果。其中3%指的是作者在小模型中只用了3%的训练样本。



 

6.读后感

这篇文章还是听牛掰的,引用量已经到了3000,也是模型蒸馏的创始paper。现在比较热门的联邦学习,或者说是需要在移动设备上训练的小模型,蒸馏可能会有大用处。文章偏开创性工作,可以作为以后应用的一部分。

7.参考文献

文章原创性比较强,我在引用它的文献中找了几个:

Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.

Carlini N, Wagner D. Towards evaluating the robustness of neural networks[C]//2017 ieee symposium on security and privacy (sp). IEEE, 2017: 39-57.

Wu J, Leng C, Wang Y, et al. Quantized convolutional neural networks for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4820-4828.

8.源码

作者没有提供源码,但是github上面很多三方的实现的demo。因为作者给的就是一个思想,所以实现的还是蛮多的。比如:

https://github.com/a7b23/Distilling-the-knowledge-in-neural-network

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/731803
推荐阅读