当前位置:   article > 正文

深度学习崛起十年:“开挂”的OpenAI革新者_open ai alex net

open ai alex net

9d3c26203707952892a1ad85736dbef5.png

来源|The Robot Brains Podcast

编译|OneFlow社区

AlexNet,AlphaGo,GPT、CLIP、DALL-E和Codex,这些在AI界轰动一时的杰作,对于任何一个AI领域的研究者来说,主导或参与上述任何一项项目都无疑可以成就一段辉煌的职业生涯,但是,偏偏就有人就能集齐这六龙珠。

更让人感到绝望的是,这个人的成就还不止于此。在他2012年博士毕业后的十年里,他的论文被引次数超过25万次,在AI学术界有着巨大影响力。此人就是OpenAI联合创始人兼首席科学家Ilya Sutskever。

a0be2009cf82a3ea21a1b15a966ffe7d.png

(从左至右依次为Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)

在多伦多大学读本科时,深度学习三巨头之一的Geoffrey Hinton就成了他的导师,当时这个领域一片荒芜,但他的学习动机非常明确,就是要对AI做出哪怕非常小但有意义的贡献。Hinton一开始给Sutskever的研究项目是改进随机邻居嵌入算法,后者的出色表现给Hinton留下了深刻印象。

2012年,在多伦多大学读博期间,在Hinton的指导下,他和博士生同学Alex Krizhevsky设计了AlexNet,并在当年的ImageNet大赛上一举夺魁。AlexNet的出现使得深度学习大放异彩,并让AI在过去10年里得到突飞猛进的发展。

博士毕业后,他加入了Hinton的新研究公司DNNResearch,2013年3月,这家只有三个人的创业公司被谷歌收购,Sutskever担任Google Brain的研究科学家。

期间,他与谷歌研究员Oriol Vinyals和Quoc Le提出了Seq2seq学习,开启了RNN广泛应用于语言任务的时代。他还参与开发了机器学习框架TensorFlow,用于大规模机器学习。更重要的是,他还参与研发了DeepMind的AlphaGo,该系统基于深度神经网络和蒙特卡罗树搜索方面进行训练,并使用强化学习算法自学习,他也是AlphaGo论文的作者之一。

2015年7月,Sutskever参加了一场有Sam Altman(Y Combinator前总裁)、Elon Musk和Greg Brockman(现OpenAI首席技术官)的饭局,他们一致决定要成立一个“工程型的AI实验室”。同年末,Sutskever与Greg Brockman共同创立OpenAI,致力于创造出通用人工智能,并获得了Elon Musk,Sam Altman和LinkedIn创始人Reid Hoffman等人的私人投资,在6年时间里,他们如今开发出了GPT、CLIP、DALL-E和Codex等震动业界的AI项目。

作为一个AI前沿领域的探索者,纵览其职业生涯,Sutskever的每一次转向似乎都能恰到好处地挖到黄金。

那么,他对AI发展的敏锐度来自何处,又如何看待未来神经网络、AI的发展机遇?在Pieter Abbeel主持的The Robot Brains Podcast节目中,Ilya Sutskever分享了他在多伦多大学、谷歌、OpenAI等经历的研究往事,在深度学习崛起十年之际,我们将了解到这个AI革新者和引领者背后的思考和分析。

以下为对话内容,OneFlow社区做了不改变原意的编译:

 1

为何决定研究神经网络

Pieter Abbeel:很多人认为,新一轮AI高潮的到来是从2012年AlexNet的突破开始的,你是促成这一时刻发生的人之一。但在那之前,别人都在研究其他各种的计算机视觉方法,你为什么却在研究应用于计算机视觉的神经网络?

Ilya Sutskever:这一决定是由过去几年一系列认识产生的结果。第一个认识是,James Martens写的一篇名为《通过Hessian-Free优化深度学习》的论文第一次证明可以从监督数据进行端到端训练深度网络。

但在当时的某些情况下,大家都觉得无法训练深度网络。反向传播太弱了,你需要进行某种形式的预训练,然后才可能会有一些进展。而且,即使能进行端到端训练,深度网络到底能做什么?

当然,现在我们提到深度学习,就觉得训练神经网络是理所当然,只需要一个大型神经网络,输入数据,然后输出很不错的结果。

人们真正关注的是机器学习模型,他们希望可以有一种算法完美地训练这些模型。但是,如果你把这个条件强加给自己,并且想找到一个简单优雅的数学证明时,这最终会限制模型能力。

相比之下,神经网络基本算是小型并行计算机,尽管已经不算小了。而训练一个神经网络相当于用反向传播算法给这台并行计算机进行编程。所以当我看到Hessian优化的结果后,我真的很高兴,这意味着现在可以对并行计算机编程了。你可能觉得,也许有人会雄心勃勃地训练这些东西,但显然基本不可能成功,局部极小值是个大难题。但现在,你可以训练神经网络了。

第二个认识是,人类的视觉速度很快,最快几百毫秒就能识别出东西,尽管神经元的速度很慢。这意味着甚至不需要那么多的层来实现多好的视觉效果。如果有一个相当大的神经网络,那么可以通过调参在视觉应用上实现很好的效果。要是一开始就有做训练用的数据集就好了。然后ImageNet、GPU出现了,我就想,神经网络也必然会出现。

然后某一次我和Alex Krizhevsky聊天,他提到自己的GPU代码可以训练一个小的卷积网络,在60秒内输出很不错的结果,我感到很震惊。我想如果在图像上这么做肯定能成功。所以事情就是这样发生的。

Pieter Abbeel:我还记得你第一次告诉我“神经网络只是一个计算机程序”的情景,这甚至比Andrej Karpathy说软件2.0是用神经网络编程还要早好几年。但在神经网络取得成功之前,你就看到了这一点。你什么时候意识到神经网络在ImageNet上更有效?

Ilya Sutskever:我一直都相信这样做会有效。那时,Alex一直在训练神经网络,得到的结果越来越好,每周都有很大进步。

但从我的角度来看,当时的神经网络都不够大,最大的风险是我们是否有能力充分利用GPU来训练一个非常大的神经网络,它应该比其他所有的神经网络都要好。当然我

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/167954
推荐阅读
相关标签
  

闽ICP备14008679号