NIPS 十大机器学习精选论文_extended neural gpu是啥、

作者：在线问答5 | 2024-06-24 20:28:29

踩

extended neural gpu是啥、

作者简介：洪亮劼，Etsy数据科学主管，前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作，在国际顶级会议上发表论文20余篇，长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
责编：何永灿，欢迎人工智能领域技术投稿、约稿、给文章纠错，请发送邮件至heyc@csdn.net
本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序员》

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文，即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下，选择精读哪些论文，学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。本栏目旨在要帮助大家筛选出有意思的论文，解读出论文的核心思想，为精读提供阅读指导。

NIPS（Neural Information Processing Systems，神经信息处理系统进展大会）是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议，每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。笔者从NIPS 2016会议文章中精选出10篇有意思的文章，为读者解惑。

Using Fast Weights to Attend to the Recent

亮点：在Short-Term Memory、Long-Term Memory以及LSTM之外，有什么更好的Attention机制呢？

本文作者阵容豪华，有来自多伦多大学的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu，外加Geoffrey Hinton坐镇。文章一开始讲明了现在的问题，在传统的Recurrent Neural Networks（RNN）领域，有两种形式的Memory。这两种Memory形式有不一样的结构、目的和容量（Capacity）。Short-Term Memory直接通过Hidden Vector来存放信息，容量是O(H)，这里H是Hidden Units的数量。而另一方面，Long-Term Memory通过现在的输入信息和Hidden Vector，来得到下一步的输出信息以及新的Hidden Vector，总共的容量是O(H2)+O(IH)+O(HO)，这里I和O是输入单元以及输出单元的数量。另外一种比较传统的Long Short-Term Memory Networks（LSTM）依然只拥有O(H)的处理Short-Term Memory的能力。文章的核心是想提出一种能够更加有效地提供记忆的机制。当然，文章用了一小节从生理学的角度来讲如何有这样的启发，不过这恐怕主要想把文章的立意拔高，其实和后面的主要模型部分并没有直接的联系。简单说来，这篇文章提出的模型基于传统的RNN进行了这样的改进：

下一步的Hidden Vector来自于两个因素：

当前的Hidden Vector和当前的输入信息；
一个类似Attention机制的但这篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。

这个Fast Weights随着时间的推移，会有一个衰减信息。

如何理解Fast Weights呢？直观来说， Fast Weights是一个Attention机制，把现在的Hidden Vector和过去的任意Hidden Vector进行比较，通过Outer Product的结果来决定Attention的强度。有了这么一种Attention机制，整个模型就能够对过去类似的记忆进行回忆，产生一个可以对近期的信息进行综合反应的效果。在稳定Fast Weights的目的下，文章还使用了Layer Normalization技术。文章的一些实验结果惊人，比如在一个人造的数据集上，模型效果能够很容易达到0错误率。而在MNIST的数据上做Visual Attention，提出的模型也能有非常不错的效果。总之，这篇文章值得泛读。对于研究Attention机制的读者来说，是一个精读的材料。

Learning Structured Sparsity in Deep Neural Networks

亮点：如何把前几年盛行的Structured Sparisity和DNN结合？这篇文章给出了思路。

这篇文章来自匹兹堡大学的研究人员，核心内容非常清晰，那就是要引入Structured Sparsity到DNN来，使得最终的DNN有一个比较紧凑的表示，加快运算速度，同时能够得到硬件友善的表现形式，让硬件能够比较快地执行。虽然之前已经有了一些工作来对DNN进行压缩，但这篇文章的作者认为，这些压缩方法（比如直接使用L1 Regularization），可能会让网络得到一些随机（Random）的链接，使得内存访问变得不常规（Iregular）。在这样的情况下，新的模型，虽然表面上有很大的Sparsity，但是并没有加快运算速度，有时候甚至还有减少。另外一种最近的思路，就是最近采用的Low-Rank Approximation方法。简单说来这种方法

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/在线问答5/article/detail/753891