赞
踩
福岛邦彦。2021年4月29日,福岛邦彦(KunihikoFukushima)获得2021年鲍尔科学成就奖。
他为深度学习做出了杰出贡献,其最有影响力的工作当属「Neocognitron」卷积神经网络架构。
其实,熟悉这位JürgenSchmidhuber人都知道,他此前一直对自己在深度学习领域的早期原创性成果未能得到业界广泛承认而耿耿于怀。
1979年,福岛博士在STRL开发了一种用于模式识别的神经网络模型:Neocognitron。很陌生对吧?
但这个Neocognitron用今天的话来说,叫卷积神经网络(CNN),是深度神经网络基本结构的最伟大发明之一,也是当前人工智能的核心技术。什么?
卷积神经网络不是一个叫YannLeCun的大佬发明的吗?怎么又换成了福岛邦彦(KunihikoFukushima)了?
严格意义上讲,LeCun是第一个使用误差反向传播训练卷积神经网络(CNN)架构的人,但他并不是第一个发明这个结构的人。
而福岛博士引入的Neocognitron,是第一个使用卷积和下采样的神经网络,也是卷积神经网络的雏形。
福岛邦彦(KunihikoFukushima)设计的具有学习能力的人工多层神经网络,可以模仿大脑的视觉网络,这种「洞察力」成为现代人工智能技术的基础。
福岛博士的工作带来了一系列实际应用,从自动驾驶汽车到面部识别,从癌症检测到洪水预测,还会有越来越多的应用。
谷歌人工智能写作项目:爱发猫
最先提出的不太清楚好像不是日本的好文案。
2006年英国的科学家GeoffreyEverestHinton提出了深度学习被广泛关注,近年,日本的福岛邦彦博士的深度学习研究差不多是最前线的研究,希望对你有帮助。
深度学习框架,尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2],而人工神经网络的历史更为久远。
1989年,燕乐存(YannLeCun)等人开始将1974年提出的标准反向传播算法[3]应用于深度神经网络,这一网络被用于手写邮政编码识别。
尽管算法可以成功执行,但计算代价非常巨大,神经网路的训练时间达到了3天,因而无法投入实际使用[4]。
许多因素导致了这一缓慢的训练过程,其中一种是由于尔根·施密德胡伯(JürgenSchmidhuber)的学生赛普·霍克赖特(SeppHochreiter)于1991年提出的梯度消失问题[5][6]。
与此同时,神经网络也受到了其他更加简单模型的挑战,支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。“深度学习”这一概念从2007年前后开始受到关注。
当时,杰弗里·辛顿(GeoffreyHinton)和鲁斯兰·萨拉赫丁诺夫(RuslanSalakhutdinov)提出了一种在前馈神经网络中进行有效训练的算法。
这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优[7]。
在此之前的1992年,在更为普遍的情形下,施密德胡伯也曾在递归神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[8][9].自深度学习出现以来,它已成为很多领域,尤其是在计算机视觉和语音识别中,成为各种领先系统的一部分。
在通用的用于检验的数据集,例如语音识别中的TIMIT和图像识别中的ImageNet,Cifar10上的实验证明,深度学习能够提高识别的精度。硬件的进步也是深度学习重新获得关注的重要因素。
高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短[10][11]。
基本概念[编辑]深度学习的基础是机器学习中的分散表示(distributedrepresentation)。分散表示假定观测值是由不同因子相互作用生成。
在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[1]。
深度学习运用了这分层次抽象的思想,更高层次的概念从低层次的概念学习得到。
这一分层结构常常使用贪婪算法逐层构建而成,并从中选取有助于机器学习的更有效的特征[1].不少深度学习算法都以无监督学习的形式出现,因而这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签数据更丰富,也更容易获得。
这一点也为深度学习赢得了重要的优势[1]。人工神经网络下的深度学习[编辑]一部分最成功的深度学习方法涉及到对人工神经网络的运用。
人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔(DavidH.Hubel)和托斯坦·威泽尔(TorstenWiesel)提出的理论启发。
休伯尔和威泽尔发现,在大脑的初级视觉皮层中存在两种细胞:简单细胞和复杂细胞,这两种细胞承担不同层次的视觉感知功能。受此启发,许多神经网络模型也被设计为不同节点之间的分层模型[12]。
福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构[13]。
事实上,从反向传播算法自20世纪70年代提出以来,不少研究者都曾试图将其应用于训练有监督的深度神经网络,但最初的尝试大都失败。
赛普·霍克赖特(SeppHochreiter)在其博士论文中将失败的原因归结为梯度消失,这一现象同时在深度前馈神经网络和递归神经网络中出现,后者的训练过程类似深度网络。
在分层训练的过程中,本应用于修正模型参数的误差随着层数的增加指数递减,这导致了模型训练的效率低下[14][15]。为了解决这一问题,研究者们提出了一些不同的方法。
于尔根·施密德胡伯(JürgenSchmidhuber)于1992年提出多层级网络,利用无监督学习训练深度神经网络的每一层,再使用反向传播算法进行调优。
在这一模型中,神经网络中的每一层都代表观测变量的一种压缩表示,这一表示也被传递到下一层网络[8]。
另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络(longshorttermmemory,LSTM)[16]。
2009年,在ICDAR2009举办的连笔手写识别竞赛中,在没有任何先验知识的情况下,深度多维长短期记忆神经网络取得了其中三场比赛的胜利[17][18]。
斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型,用以解决图像重建和人脸定位的问题[19]。
其他方法同样采用了无监督预训练来构建神经网络,用以发现有效的特征,此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。
这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机[20]对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。
当足够多的层数被学习完毕,这一深层结构成为一个生成模型,可以通过自上而下的采样重构整个数据集[21]。辛顿声称这一模型在高维结构化数据上能够有效低提取特征[22]。
吴恩达和杰夫·迪恩(JeffDean)领导的谷歌大脑(英语:GoogleBrain)团队创建了一个仅通过YouTube视频学习高层概念(例如猫)的神经网络[23][24]。
其他方法依赖了现代电子计算机的强大计算能力,尤其是GPU。
2010年,在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中,丹·奇雷尚(DanCiresan)和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。
这一方法在燕乐存等人给
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。