赞
踩
我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。现在我们还是以最熟悉的线性回顾为例子。
我们的目标时使损失越小越好。
那加了L1正则化和L2正则化之后,对目标函数的求解有什么作用呢?
假设X为一个二维样本,那么要求解的参数w也是二维:
从上面两幅图中我们可以看出:
以原目标函数的曲线来说,在同一条等高线上,以最外圈的红色等高线为例。我们可以看到,对于红色曲线上的每个点都可以做一个菱形,根据上图3可知,当这个菱形和某条等高线相切的时候,这个菱形最小。
证明:同一等高线上的点能够使得值相同,但是在相切的时候C||w||小,即|w1|+|w2|小,所以能够使得
更小。
那么加入L1范数得到的解,一定是某个菱形和某条原函数等高线的切点。
我们可以观察到,几乎对于很多原函数等高线,和某个菱形相交的时候容易相交在坐标轴上,即最终结果解的某个维度极其容易为0,比如上图最终解释w=(0,x),这也就是我们所说的L1更容易得到稀疏解(解向量中0比较多)的原因。
证明:假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:
假设L(w)在0处的导数为,即
则可以推导使用L1正则和L2正则时的导数。
引入L2正则项,在0处的导数
引入L1正则项,在0处的导数
可见,引入L2正则时,代价函数在0处的导数仍然时d0,无变化。
而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0-λ,如果d0+λ和d0-λ异号,则会在0处会是一个极小值。因此,优化时,很可能优化到该极小值点上,即w=0处。
这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。
当加入L2正则化的时候,分析和L1正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比,我们这样求得L2范数得从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴。因为这也就是我们经常说得,L2范数能让解比较小(靠近0),但是比较平滑(不等于0)。
综上所述,我们可以看见,加入正则化项,在最小化经验误差得情况下,可以让我们选择解更简单(趋向于0)的解。
从Bayes角度来看,L1,L2正则相当于对模型参数引入先验分布:
特征选择:稀疏性(权值稀疏)
鲁棒性:忽略异常点
解决过拟合
易优化和计算(权值平滑)
稳定性好
对异常点敏感:误差取平方后放大。
稳定性比较解释
L1存在ill condition(病态)问题:输入发生微小变化导致输出发生很大改变。
对L1的病态问题大概理解一下,如上图所示,用批数据训练,每次批数据都会有稍稍不同的误差曲线。L2针对这种变动,白点的移动不会太大,而L1的白点则可能跳到许多不同的地方没因为这些地方的总误差都是差不多的。侧面说明了L1解的不稳定性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。