赞
踩
通过历史背景了解深度学习是非常简单方式。这里我们只讨论深度学习的几个关键趋势。
可能很多人会认为深度学习是一个近十年来才出现的新领域,但事实上深度学习有着悠久的历史,最早可追溯到20世纪40年代。人们之所以有这样的误解是因为在目前流行的前几年还是相对冷门的,也因为它在不同的时代被赋予了许多不同的名称。深度学习这个术语是在2000年代后期开始流行的,尤其是2006年和2007年,当时几位研究者(包括Geoffrey Hinton,Yoshua Bengio和Yann LeCun)开始使用这个术语来描述它们的工作。
深度学习经历了三次的发展浪潮,或者说是三个阶段:
在神经网络的早期发展中的学习算法,旨在模拟生物学习的计算模型,也就是大脑怎样学习的模型。其结果是深度学习以人工神经网络(artificial neural network,ANN)之名淡去。
深度学习的神经观点受两个主要思想启发:一个想法是大脑作为例子证明了智能行为是可能的,因此概念上,建立智能的直接途径是逆向大脑背后的计算原理,并复制其功能,另一个想法是,理解大脑和人类智能背后的原理也非常有趣,因此机器学习模型除了解决工程应用的能力,如果能让人类对这些基本的科学问题有进一步的认识,也将会很有用。
现代深度学习的最早的前身是从神经科学角度出发的简单线性模型。
简单线性模型假设目标变量和输入变量之间存在线性关系。在这样的模型中,输出是输入的加权和,加上一个偏置项。权重和偏置是模型模型的参数。
用数学语言表示,这些模型设计希望学习一组权重
w
1
,
w
2
,
.
.
.
,
w
n
w_1,w_2,...,w_n
w1,w2,...,wn,将一组输入
x
!
,
x
2
,
.
.
,
x
n
x_!,x_2,..,x_n
x!,x2,..,xn映射到输出y。即
f
(
x
,
w
)
=
x
1
w
1
+
x
2
w
x
+
.
.
.
+
x
n
w
n
f(x,w)=x_1w_1+x_2w_x+...+x_nw_n
f(x,w)=x1w1+x2wx+...+xnwn(不含偏置项)。有偏置项的模型则是
f
(
x
,
w
,
b
)
=
x
1
w
1
+
x
2
w
x
+
.
.
.
+
x
n
w
n
+
b
.
f(x,w,b)=x_1w_1+x_2w_x+...+x_nw_n+b.
f(x,w,b)=x1w1+x2wx+...+xnwn+b.其中b是偏置项。
使用简单线性模型的学习算法有:McCUlloch-Pitts神经元(脑功能的早期模型),感知机(第一个能根据每个类别的输入样本来学习权重的模型),自适应单元(adaptive linear element,ADALINE)等
这些简单的学习算法对机器学习的现代景象影响颇深。用于条件ADALINE权重的训练算法是被称为随机梯度下降(stochastic gradient descent)的一种特例。稍加改进后的随机梯度下降算法仍然是当今深度学习的主要训练算法。
线性模型有很多局限性,最著名的是,它们无法学习异或(XOR)函数,即
f
(
[
0
,
1
]
,
w
)
=
1
f([0,1],w)=1
f([0,1],w)=1和
f
(
[
1
,
0
]
)
=
1
f([1,0])=1
f([1,0])=1。但
f
(
[
0
,
0
]
,
w
)
=
0
f([0,0],w)=0
f([0,0],w)=0和
f
(
[
1
,
1
]
)
=
0
f([1,1])=0
f([1,1])=0.
简单的说,无法学习异或函数的原因是:异或函数是不是线性可分的。线性可分意味着存在一个线性决策边界(在二维空间是一条直线,在更高维度空间是一个超平面),可以将不同类别的数据点完全分开。然而,异或函数的输入点([1,0],[0,1],[1,1],[0,0])无法被一条直线或一个屏幕完全正确的分开。
这导致了神经网络热潮的第一次大衰退。
现在,神经科学被认为是深度学习的一个重要灵感来源,但已经不再是主要领导。主要原因是我们没有对关于大脑足够多的信息作为指导去使用它。大家不应该认为深度学习在尝试模拟大脑,虽然神经科学已经成功的启发了一些神经网络架构,但是因为对于神经科学的生物学习没有足够的了解,因此并不能对训练这些架构用的学习算法提高太多的借鉴。
神经网络研究的第二层浪潮在很大程度上是伴随一个称为联结主义(connectionism)和并行分布处理(parallel distributed processing)潮流而出现的。联结主义是在认知科学背景下出现的,它中心思想是,当网络将大量简单的计算单元连接在一起时可以实现智能行为。这同样适用于生物神经系统的神经元,因为它与计算模型中隐藏单元(也称隐藏神经元)
起着类似的作用。
联结主义期间形成的几个关键概念对于今天的深度学习也是非常重要的。
其中一个是分布式表示(distributed representation)。它的思想是:系统的每一个输入都应该由多个特征表示,并且每一个特征都应该参与到多个可能输入的表示。例如:我们能够识别中年、青年、儿童的男生、女生的图像识别系统。表示这些输入的一个方法是将这6个可能的组合使用单独的隐藏单元激活,这将需要6个不同的隐藏单元,每个隐藏单元都需要单独的学习性别和对象身份的概念。而用分布式表示则是使用三个神经元描述对象身份,两个神经元描述性别。这只需要5个神经元而不是6个。并且描述性别的神经元能够从中年、青年、儿童的图像中学习性别,而不是从一种特定类别的图像中学习。
联结主义的另一个重要成绩是反向传播在训练具有内部表示的深度神经网络中的成功使用以及反向传播算法的普及。
这第二次浪潮从20世纪90年代中期开始衰退。
第三次浪潮始于2006年,Geoffrey Hinton表明名为“深度信念网络”的神经网络可以使用一种称为“贪婪逐层预训练”的策略来有效地训练。神经网络研究的这一次浪潮普及了深度学习这一术语。
深度学习的一个巨大成就是其在强化学习(reinforcement learning)领域的扩展。强化学习中,一个自主的智能体(agent)必须在没有人类的操作者指导下,通过试错(trial-and-error)来学习最优策略,去执行任务。
在近几年来,因为更强大的计算机、更大的数据集和能够训练更深网络的技术,深度学习的普及性和应用性得到了极大的发展。在过去,深度学习借鉴了关于人脑、统计学和应用数学的知识。在未来,深度学习充满了进一步提高的机遇。
本系列教程所选教材是深度学习领域奠基性的经典教材《DEEP LEARNING》,它是由LanGoodfello、YoshuaBengio和AraonCourille所撰写。建议有条件的去研读原书,本文章是对这本教材的总结和理解。如有问题,恳请指正。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。