赞
踩
本文主要包含以下内容:
1 简介
2 前馈网络函数
3 权重空间对称性
从前面的回归和分类中,我们看到其由固定的基函数线性组合而成。但这些模型的分析和计算在实际应用中受限于维数诅咒。为了将这些模型应用到大尺度问题,需要基函数自适应数据。
支持向量机[1]通过定义以训练数据点为中心的基函数,然后在训练中选择这些数据点的子集来解决这个问题。SVM的一个优点是,虽然训练涉及非线性优化,但目标函数是凸的,因此优化问题的解决相对简单。
支持向量机
的一个优点
是,虽然训练涉及非线性优化
,但目标函数是凸
的,因此优化问题的解决相对简单。生成的模型中基函数的数量通常比训练点的数量小得多,尽管它通常仍然比较大,并且通常随着训练集的大小而增加。
另一个方法是提前固定基函数的数量但允许他们自适应。 换句话说,参数形式的基函数的参数值在训练中自适应。典型代表是前馈神经网络
,也叫多层感知机( multilayer perceptron)。
但多层感知机是不恰当的,因为模型由多层逻辑回归模型组成( 连续非线性)而不是多个感知机(不连续非线性)。
对于许多应用程序,得到的模型可以比具有相同泛化性能的支持向量机更紧凑,因此评估速度更快。紧凑的代价是模型参数的似然函数(形成网络训练的基础)不再是凸函数,类似于相关支持向量机。
但实践中,为了获得一个处理新数据速度快的紧凑模型,在训练阶段投入大量的计算资源往往是值得的。
神经网络
这个术语起源于试图在生物系统中找到信息处理的数学表示。事实上,它已经被广泛地用于各种不同的模型,其中许多模型在生物学上的可信性方面被夸大了。
但是从模式识别的实际应用来看,生物现实主义会带来完全不必要的约束。因此,文章重点是神经网络作为统计模式识别的有效模型。将把注意力限制在已被证明具有最大实用价值的神经网络的特定类别,即多层感知器。
首先考虑网络模型的函数形式,包括基函数的具体参数化,然后讨论在最大似然框架内确定网络参数的问题,这涉及到一个非线性优化问题的解决。
这就需要对对数似然函数关于网络参数的导数进行评估,将看到如何使用误差反向传播
(error backpropagation)技术有效地获得这些。
回归和分类以固定非线性基函数的线性组合
为基础,形式如下:
其中在分类
中是一个非线性激活函数
,回归
中是一个恒等函数
。
我们的目标是通过使基函数依赖参数来扩展模型,然后在训练中允许这些参数被调整,即参数。
有很多方式可以构建参数化的非线性基函数。
神经网络使用式1的基函数形式,所以每个基函数本身是输入的线性组合的非线性函数,其中线性组合的系数是自适应参数。
这就引出了基本的神经网络模型,它可以被描述为一系列的函数转换。
首先构建一个个线性组合的输入变量:
式中,上标1表示位于网络第一层的相应参数。参数是权重,是偏差。数量表示激活(activations)
。然后使用可微的非线性激活函数(activation function)
将它们每一个转换:
这些量对应于式1中基函数的输出,在神经网络中称为隐藏单元。非线性函数通常被选择为s型函数,如逻辑回归型函数或tanh函数。
根据式1,这些值再次线性组合,以给予输出单位激活
(output unit activations):
式中,是输出的总个数。
该变换对应于网络的第二层,也是偏置参数。最后,利用适当的激活函数对输出单元的激活进行转换,得到一组网络输出。
激活函数的选择是由数据的性质和目标变量的假定分布决定的。
因此,对于标准回归问题,激活函数是恒等函数即。类似地,对于多个二值分类问题,每个输出单元的激活都使用逻辑回归函数进行转换:
最后,对于多类问题,使用了一个softmax(式62)激活函数的形式。
我们可以结合这些不同的阶段来给出整体的网络函数,对于s形输出单位激活函数,采用这种形式:
其中,所有的权值和偏差参数集合都被组合成一个向量。因此,神经网络模型只是一个由可调参数向量控制的从一组输入变量到一组输出变量的非线性函数。
这个函数可以用网络图的形式表示,如图1所示。评估式7的过程可以被解释为信息通过网络的正向传播
(forward propagation)。这些图表并不代表概率图模型,因为内部节点代表确定性变量而不是随机变量。
由于这个原因,我们采用了一种稍微不同的图形表示这两种模型。
通过定义附加的输入变量,其值,可以将式2中的偏差参数吸收到权重参数集合中,因此式2具有这样的形式:
式同样可以将第二层的偏差吸收到第二层的权重中,这样整个网络函数就变成了:
从图1中可以看出,神经网络模型由两个处理阶段组成,每一个处理阶段都类似于感知机模型,因此神经网络又被称为多层感知机
,或MLP。
与感知机的关键区别在于,神经网络在隐藏单元中使用连续的s形非线性,而感知机使用阶跃函数非线性。这意味着神经网络函数相对于网络参数是可微的,这一特性将在网络训练中发挥核心作用。
如果把网络中所有隐单元的激活函数都看成是线性的,那么对于任何这样的网络,我们总能找到一个没有隐单元的等价网络。
这源于这样一个事实即连续线性变换的复合变换本身就是一个线性变换。但如果隐藏单元的数量小于输入或输出单元的数量,则网络可以生成的转换并不是从输入到输出的最通用最可能的线性变换,因为信息在隐藏单元的降维过程中丢失了。线性单元组成的网络产生了主成分分析。
图1所示的网络架构是实际中最常用的一种。它很容易推广,例如通过考虑额外的处理层,每个层由一个加权线性组合(式4)形式组成,然后使用一个非线性激活函数的元素转换。
在文献中关于计数网络层数的术语有一些混淆。因此,图1中的网络可以被描述为一个3层网络(计算单元的层数,并将输入作为单元),有时也可以被描述为一个单隐藏层网络(计算隐藏单元的层数)。
推荐图1中的术语称为双层网络,因为自适应权值的层数对于确定网络属性很重要。
网络架构的另一种泛化是包括跃层
(skip-layer)连接,每个跃层连接都与相应的自适应参数相关联。例如在双层网络中,这些信号将直接从输入到输出。
原则上,一个网络与s形隐藏单元可以模仿跃层连接(有界输入值)通过使用一个足够小第一层权值,对其范围操作,隐藏的元实际上是线性的,然后用一个大权值补偿从隐藏的单元到输出。但是在实践中,显式地包含跃层连接可能是有利的。
此外,网络可以是稀疏的,并不是一层内所有可能的连接都存在。
由于网络图与其数学函数之间存在直接对应关系,我们可以通过考虑更复杂的网络图来开发更通用的网络映射。
但这些必须被限制在前馈架构中,换句话说,就是没有封闭的有向循环的架构,以确保输出是输入的确定性函数。图2中的一个简单示例说明了这一点。网络中的每个(隐藏的或输出的)单元的计算函数为:
式这里的总和运行在所有发送连接到单元上的单元(和包含在总和中的一个偏差参数)。
对于应用于网络输入的一组给定值,式10的连续应用可以评估网络中所有单元的激活,包括输出单元的激活。
前馈网络的近似性质已经得到了广泛的研究。因此,神经网络被称为通用逼近器
(universal approximators)。
例如,一个具有线性输出的两层网络,只要网络有足够多的隐单元,就可以一致地逼近一个紧凑输入域上的任意连续函数,达到任意精度。这个结果适用于广泛的隐单位激活函数,但不包括多项式。
虽然这样的定理是令人放心的,关键问题是给定一组训练数据如何找到合适的参数值,这可以通过极大似然和贝叶斯求解。
图3说明了两层网络对大范围函数建模的能力。这个图还显示了单个隐藏单元如何协同工作来逼近最终的函数。图4利用合成分类数据集说明了隐藏单元在一个简单分类问题中的作用。
前馈网络的一个特性将在我们考虑贝叶斯模型比较时发挥作用,即权向量的多个不同选择都可以产生从输入到输出的相同映射函数。
考虑一个如图1所示的两层网络,其中个具有tanh激活函数的隐藏单元,并且在两层中都具有完整的连通性。
如果我们改变所有权重的符号以及输入到特定隐藏单元的偏置的符号,那么,对于给定的输入模式,隐藏单元的激活符号将会反转,因为tanh是一个奇函数,所以。这个变换可以通过改变从这个隐藏单元引出的所有权重的符号来精确地补偿。
因此,通过改变一组特定权重(和一个偏差)的符号,由网络表示的输入输出映射函数是不变的,这样我们就找到了两个不同的权向量,它们产生相同的映射函数。
对于个隐藏单元,会有个这样的符号翻转对称,因此任何给定的权值向量都将是集合个等价权值向量中的一个。
类似地,想象我们交换了所有的权重(和偏差)的值,这些权重(和偏差)都指向一个特定的隐藏单元,而权重(和偏差)的相应值则与另一个隐藏单元相关联。
同样,这显然使网络输入输出映射函数保持不变,但它对应的权值向量的选择不同。
对于个隐藏单元,任何给定的权值向量都属于与这种交换对称相关的等价权向量的的集合,对应于隐藏单元的不同顺序。因此,整个网络的权-空间对称系数将为。对于权重超过两层的网络,对称的总体水平将由这些因子的乘积给出,每层隐含单元一个。
结果是,这些因子解释了权重空间中的所有对称性(除了由于权重值的特定选择而可能出现的意外对称性)。此外,这些对称性的存在并不是tanh函数的一个特殊性质,而是广泛应用于激活函数。在许多情况下,这些权重空间中的对称性没有什么实际意义。
支持向量机: https://blog.csdn.net/mengjizhiyou/article/details/103381190
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。