赞
踩
深度学习的历史可以追溯到1943年,当时Walter Pitts和Warren McCulloch建立了基于人脑神经网络的计算机模型。他们将算法和数学方法结合在一起,称之为“阈值逻辑”,以模仿思维过程。自那时以来,深度学习一直在稳步发展,其发展只有两个重大突破。两者都与臭名昭著的人工智能冬天有关。
亨利·凯利(Henry J. Kelley)因在1960年开发了连续反向传播模型的基础而受到赞誉。1962年,斯图尔特·德雷福斯(Stuart Dreyfus)开发了仅基于链式规则的简单版本。虽然反向传播(为了训练目的而向后传播误差)的概念在1960年代初确实存在,但它笨拙且效率低下,直到1985年才有用。
最早开发深度学习算法的工作是在1965年由Alexey Grigoryevich Ivakhnenko(开发了数据处理的分组方法)和Valentin Grigorʹevich Lapa(控制论与预测技术的作者)开发的。他们使用具有多项式(复杂方程式)激活函数的模型,然后进行统计分析。然后,从每一层将统计上最佳的功能转发到下一层(缓慢的手动过程)。
在1970年代的第一个AI冬季开始,因为深度学习和AI研究无法兑现诺言,从而影响了资金投入研究。
福岛邦彦使用了第一个“卷积神经网络”。福岛设计了具有多个池化和卷积层的神经网络。 1979年,他开发了一种名为Neocognitron的人工神经网络,该网络使用了分层的多层设计。这种设计使计算机能够“学习”到视觉图案。该网络类似于现代版本,但是经过强化策略的反复循环激活训练,随着时间的推移,该策略逐渐增强。此外,福岛的设计允许通过增加某些连接的“权重”来手动调整重要功能。
Neocognitron的许多概念继续被使用。自上而下的连接和新的学习方法的使用已允许实现各种神经网络。当同时显示多个模式时,选择性注意模型可以通过将注意力从一个模式转移到另一个模式来分离和识别各个模式。 (在多任务处理中,我们许多人使用相同的过程)。现代的Neocognitron不仅可以识别信息缺失的图案(例如,不完整的数字5),还可以通过添加信息缺失来完善图像。这可以描述为“推断”。
反向传播,即在训练深度学习模型中使用错误的方法,在1970年得到了显着发展。那时Seppo Linnainmaa撰写了他的硕士论文,其中包括用于反向传播的FORTRAN代码。不幸的是,直到1985年,该概念才应用于神经网络。那时Rumelhart,Williams和Hinton证明了神经网络中的反向传播可以提供“有趣的”分布表示。从哲学上讲,这一发现使人们认识到人类理解是依赖符号逻辑(计算主义)还是分布式表示(联系主义)的认知心理学问题。 1989年,Yann LeCun在贝尔实验室提供了反向传播的第一个实际演示。他将卷积神经网络与反向传播结合到读取的“手写”数字上。该系统最终用于读取手写支票的数量。
这次也是第二个AI冬季(1985-90年代)开始的时候,这也影响了神经网络和深度学习的研究。各种过于乐观的人夸大了人工智能的“即时”潜力,超出了预期并激怒了投资者。愤怒如此强烈,“人工智能”一词达到了伪科学的地位。幸运的是,一些人继续从事AI和DL的研究,并取得了一些重大进展。 1995年,Dana Cortes和Vladimir Vapnik开发了支持向量机(一种用于映射和识别相似数据的系统)。 Sepp Hochreiter和Juergen Schmidhuber于1997年开发了用于递归神经网络的LSTM(长短期记忆)。
深度学习的下一个重要的进化步骤发生在1999年,那时计算机在处理数据方面开始变得更快,并且开发了GPU(图形处理单元)。使用GPU处理图片的处理速度更快,在10年的时间里将计算速度提高了1000倍。在此期间,神经网络开始与支持向量机竞争。虽然与支持向量机相比,神经网络的速度可能较慢,但使用相同的数据,神经网络可以提供更好的结果。神经网络还具有随着添加更多训练数据而持续改进的优势。
在2000年左右,消失的梯度问题出现了。发现在较低层中形成的“功能”(课程)没有被较高层学习,因为没有学习信号到达这些层。这并不是所有神经网络的根本问题,只是那些采用基于梯度的学习方法的神经网络。问题的根源是某些激活功能。许多激活功能压缩了它们的输入,进而以某种混乱的方式减小了输出范围。这产生了在很小范围内映射的大面积输入。在这些输入区域中,大的变化将减小为输出的小变化,从而导致梯度消失。用于解决此问题的两个解决方案是逐层预训练和长短期记忆的开发。
2001年,META Group(现称为Gartner)的一份研究报告将他在数据增长方面的挑战和机遇描述为三维的。该报告描述了随着数据源和类型范围的增加,数据量的增加和数据速度的增加。这是为了为即将开始的大数据冲击做准备。
2009年,斯坦福大学AI教授李飞飞创建了ImageNet,该数据库免费收集了超过1400万张带标签图像的数据库。互联网过去充满了无标签的图像。需要标记图像来“训练”神经网络。李教授说:“我们的愿景是大数据将改变机器学习的工作方式。数据驱动学习。”
到2011年,GPU的速度已显着提高,从而可以“无需”逐层进行预训练来训练卷积神经网络。随着计算速度的提高,很明显,深度学习在效率和速度方面具有明显的优势。一个例子是AlexNet,一种卷积神经网络,其体系结构在2011年和2012年期间赢得了多项国际竞赛。整流的线性单元用于提高速度和辍学率。
同样在2012年,Google Brain发布了一个名为“猫实验”的不寻常项目的结果。这个自由奔放的项目探讨了“无监督学习”的困难。深度学习使用“监督学习”,这意味着卷积神经网络是使用标记数据(从ImageNet想到的图像)进行训练的。使用无监督学习,卷积神经网络将获得未标记的数据,然后被要求寻找重复模式。
猫实验使用了遍布1,000台计算机的神经网络。从YouTube上随机拍摄了1000万张“未标记”图像,并显示给系统,然后允许运行该培训软件。训练结束时,发现最高层的一个神经元对猫的图像有强烈反应。该项目的创始人安德鲁·伍…
原文见链接:https://m.zjurl.cn/answer/6751664339272335620/?app=news_article&app_id=13。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。