当前位置:   article > 正文

NIPS 十大机器学习精选论文_extended neural gpu是啥、

extended neural gpu是啥、

作者简介:洪亮劼,Etsy数据科学主管,前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作,在国际顶级会议上发表论文20余篇,长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读哪些论文,学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。本栏目旨在要帮助大家筛选出有意思的论文,解读出论文的核心思想,为精读提供阅读指导。

NIPS(Neural Information Processing Systems,神经信息处理系统进展大会)是每年12月由NIPS基金会主办的人工智能和机器学习顶级会议,每年大会都吸引了机器学习、人工智能、统计等领域的众多国际专家前来参与。笔者从NIPS 2016会议文章中精选出10篇有意思的文章,为读者解惑。

Using Fast Weights to Attend to the Recent

亮点:在Short-Term Memory、Long-Term Memory以及LSTM之外,有什么更好的Attention机制呢?

本文作者阵容豪华,有来自多伦多大学的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu,外加Geoffrey Hinton坐镇。文章一开始讲明了现在的问题,在传统的Recurrent Neural Networks(RNN)领域,有两种形式的Memory。这两种Memory形式有不一样的结构、目的和容量(Capacity)。Short-Term Memory直接通过Hidden Vector来存放信息,容量是O(H),这里H是Hidden Units的数量。而另一方面,Long-Term Memory通过现在的输入信息和Hidden Vector,来得到下一步的输出信息以及新的Hidden Vector,总共的容量是O(H2)+O(IH)+O(HO),这里I和O是输入单元以及输出单元的数量。另外一种比较传统的Long Short-Term Memory Networks(LSTM)依然只拥有O(H)的处理Short-Term Memory的能力。文章的核心是想提出一种能够更加有效地提供记忆的机制。当然,文章用了一小节从生理学的角度来讲如何有这样的启发,不过这恐怕主要想把文章的立意拔高,其实和后面的主要模型部分并没有直接的联系。简单说来,这篇文章提出的模型基于传统的RNN进行了这样的改进:

下一步的Hidden Vector来自于两个因素:

  • 当前的Hidden Vector和当前的输入信息;
  • 一个类似Attention机制的但这篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。

这个Fast Weights随着时间的推移,会有一个衰减信息。

如何理解Fast Weights呢?直观来说, Fast Weights是一个Attention机制,把现在的Hidden Vector和过去的任意Hidden Vector进行比较,通过Outer Product的结果来决定Attention的强度。有了这么一种Attention机制,整个模型就能够对过去类似的记忆进行回忆,产生一个可以对近期的信息进行综合反应的效果。在稳定Fast Weights的目的下,文章还使用了Layer Normalization技术。文章的一些实验结果惊人,比如在一个人造的数据集上,模型效果能够很容易达到0错误率。而在MNIST的数据上做Visual Attention,提出的模型也能有非常不错的效果。总之,这篇文章值得泛读。对于研究Attention机制的读者来说,是一个精读的材料。

Learning Structured Sparsity in Deep Neural Networks

亮点:如何把前几年盛行的Structured Sparisity和DNN结合?这篇文章给出了思路。

这篇文章来自匹兹堡大学的研究人员,核心内容非常清晰,那就是要引入Structured Sparsity到DNN来,使得最终的DNN有一个比较紧凑的表示,加快运算速度,同时能够得到硬件友善的表现形式,让硬件能够比较快地执行。虽然之前已经有了一些工作来对DNN进行压缩,但这篇文章的作者认为,这些压缩方法(比如直接使用L1 Regularization),可能会让网络得到一些随机(Random)的链接,使得内存访问变得不常规(Iregular)。在这样的情况下,新的模型,虽然表面上有很大的Sparsity,但是并没有加快运算速度,有时候甚至还有减少。另外一种最近的思路,就是最近采用的Low-Rank Approximation方法。简单说来这种方法

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/753891
推荐阅读
相关标签
  

闽ICP备14008679号