赞
踩
特征分解是常见的矩阵分解的一种,是将矩阵分解成一组特征向量和特征值的操作。定义一个矩阵为 A :
Av=λv
A=QΛQT
Q 是矩阵的特征向量组成的正交矩阵,
正则化的是通过对目标函数添加一个参数惩罚项限制模型的学习能力。在L2正则里,这个惩罚项被设定为
J(θ)∗=J(θ)+αΩ(θ)
用泰勒公式处理,在最优权重处做函数的近似二阶泰勒级数,并展开惩罚项后:
J(θ)∗=J(θ∗)+(θ−θ∗)Tg+12(θ−θ∗)TH(θ−θ∗)+α2θTθ
J(θ)∗=J(θ∗)+12(θ−θ∗)TH(θ−θ∗)+α2θTθ 继续对函数求偏导后,得到
J∗ 的梯度:
∇θJ(θ)∗=H(θ−θ∗)+αθ 因为函数取最小值,其梯度为零:
H(θ−θ∗)+αθ=0 可得:
θ=(H+αI)−1Hθ∗ 黑塞矩阵是实对称矩阵,之前提到过实对称矩阵都可以分解成特征向量和特征值的组合:
θ=(QΛQT+αI)−1QΛQTθ∗
=Q(Λ+αI)−1ΛQTθ∗ 其中的
(Λ+αI)−1Λ 可以看做是将原有黑塞矩阵的特征值变为λλ+α ,根据之前的特征向量和特征值的说明,会根据黑塞矩阵的特征向量进行对应的最优权重值缩放。对特征值求lim,沿着特征值较大的方向正则化影响较小,反之会收缩到几乎为零,也就是说这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。