当前位置:   article > 正文

L2正则化原理 / 特征值剖析_黑塞矩阵分解成一组实特征值和一组特征向量

黑塞矩阵分解成一组实特征值和一组特征向量

特征值

特征分解是常见的矩阵分解的一种,是将矩阵分解成一组特征向量和特征值的操作。定义一个矩阵为 A :

Av=λv

v 为矩阵 A 的特征向量,λ 为矩阵 A 的特征值。求解特征向量和特征值的过程就是特征分解。在不涉及非实数的情况下来进行特征分解,每个实对称矩阵都可以分解成实特征值和实特征向量:

A=QΛQT

Q 是矩阵的特征向量组成的正交矩阵,Λ 是对角矩阵。对角矩阵对应的值对应特征向量矩阵的列。在正交矩阵中,任意一组特征向量和对应的特征值组成的集合在二维平面上都可以表示为一个圆在这组正交向量的方向上进行特征值倍数的伸展压缩。

L2正则化

正则化的是通过对目标函数添加一个参数惩罚项限制模型的学习能力。在L2正则里,这个惩罚项被设定为L2(欧几里得范数)参数范数惩罚,使惩罚对象更加接近原点。在神经网络中,通常只对权重做正则惩罚,将目标函数中的权重 w 标注为参数 θ,将未被正则处理的最优权重 w 标注为 θ后:

J(θ)=J(θ)+αΩ(θ)

用泰勒公式处理,在最优权重处做函数的近似二阶泰勒级数,并展开惩罚项后:

J(θ)=J(θ)+(θθ)Tg+12(θθ)TH(θθ)+α2θTθ

g为最优权重处的梯度,H 为在最优权重处计算的黑塞矩阵。因为 θ 被定义为最优点,所以 g 梯度为0:

J(θ)=J(θ)+12(θθ)TH(θθ)+α2θTθ

继续对函数求偏导后,得到J 的梯度:

θJ(θ)=H(θθ)+αθ

因为函数取最小值,其梯度为零:

H(θθ)+αθ=0

可得:

θ=(H+αI)1Hθ

黑塞矩阵是实对称矩阵,之前提到过实对称矩阵都可以分解成特征向量和特征值的组合:

θ=(QΛQT+αI)1QΛQTθ
=Q(Λ+αI)1ΛQTθ

其中的 (Λ+αI)1Λ 可以看做是将原有黑塞矩阵的特征值变为 λλ+α ,根据之前的特征向量和特征值的说明,会根据黑塞矩阵的特征向量进行对应的最优权重值缩放。对特征值求lim,沿着特征值较大的方向正则化影响较小,反之会收缩到几乎为零,也就是说这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/574608
推荐阅读
相关标签
  

闽ICP备14008679号