赞
踩
问题背景:机器学习的参数太多,会导致模型的复杂度上升,容易产生过拟合。
正则化的原理:在损失函数上增加某些限制,减少求出过拟合解的可能性。
作用:
常用的正则化方法:L1,L2,
与
稀疏的参数可以在一定程度上实现对参数的选择。一般而言,大部分特征不提供信息,或者对预测帮助很小。稀疏算子的引入可以在一定程度上去掉这些没有帮助的特征,即将它们的权重置0,这样就只关注那些权重非0的特征,从而实现对特征的自动选择。
稀疏性可以使参数更容易被分析和解释。如果最后学习到的参数是稀疏的,那么我们有理由相信,最后剩余的这些参数提供的信息量是巨大的、决定性的,只通过对这些决定性的特征进行组合就可以对结果进行预测,那么对这些参数进行分析就容易多了,进而也更容易解释它们。
L1范数更容易产生稀疏模型,而L2范数更容易避免过拟合。
考虑一个只有两个参数
对于L1范数而言,
图中横纵坐标分别为
由上图可见,
对于L2范数,画出相同的图形如下:
可见L2范数的图形没有“角”,因此
假设存在某线性回归模型,其损失函数为:
由梯度下降得到的权重迭代更新公式为:
其中
带有L1范数的损失函数为:
其梯度为:
参数迭代更新公式为:
其中
带有L2范数的损失函数为:
其梯度为:
参数迭代更新公式为:
在参数更新时,L1范数对应的梯度为
当
此外,当
为损失函数加入正则化项,相当于为
L1正则化相当于为
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。