当前位置:   article > 正文

机器学习—正则化方法—L1正则化、L2正则化_稀疏权值矩阵

稀疏权值矩阵

在这里插入图片描述

1、L1正则化(稀疏矩阵)

权值向量w中各个元素的绝对值之和:
在这里插入图片描述

2、L2正则化(权重衰减)

权值向量w中各个元素的平方和:
在这里插入图片描述

3、L1正则化 VS L2正则化

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
L2正则化可以防止模型过拟合(overfitting)

问:为什么 L1 正则可以产生稀疏模型(很多参数=0),而 L2 正则不会出现很多参数为0的情况?
在这里插入图片描述
对于 L1 来说,限定区域是正方形(图左),同时使得经验风险尽可能小,方形与环形区域相交的交点是顶点的概率很大,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近最优参数对应的位置,而凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。所以,L1 正则化的解具有稀疏性。

扩展到高维,同样的道理,L2 的限定区域是平滑的,与中心点等距;而 L1 的限定区域是包含凸点的,尖锐的。这些凸点更接近 Ein 的最优解位置,而在这些凸点上,很多 wj 为 0。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/574664
推荐阅读
相关标签
  

闽ICP备14008679号