赞
踩
1.Lasso回归的基本思想
LASSO由于使用了 1-范数(即回归系数绝对值之和)作为惩罚项,故称为 “绝对值收缩”(Absolute Shrinkage),同时具备变量选择(Selection Operator),故得名 “最小绝对值收缩与筛选算子” (Least Absolute Shrinkage and Selection Operator)。类似于岭回归,Lasso模型同样属于一种正则化方法,即向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。我们几乎总是会发现,最好的拟合模型(从最小化泛化误差的意义上)是一个适当正则化的大型模型。
作为正则化方法的一种,lasso回归的基本思想就是是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。Lasso回归以回归系数的绝对值之和作为惩罚函数来压缩回归系数,即?Lasso(?)=λ,在参数估计中,由于绝对值符号难以进行拆解运算,可以将|??|转换为±1∗??,其中+1或-1的具体符号与??的符号一致。即Lasso损失函数的公式可以表示为?Lasso(?)=(|Y−Xβ|)2+λWTβ,该公式中?Lasso指Lasso回归模型的损失函数,X(n×p)、Y(n×1)和β(p×1)分别是预测变量矩阵、结果变量向量和回归系数向量,而W(p×1)则是值为±1 (符号与β向量中对应的数值一致)的向量。
Lasso方法 避免了在预测变量过多时采用普通最小二乘估计(OLS)估计带来的过拟合和多重共线性的问题 。理论上来说,采用包含多重检验修正的验证性方法 ( 如逐步回归 )在回归过程中,后纳入的变量常常会因为与之前的变量存在相关而被削弱影响。Lasso方法则将预测变量集视为整体,可以较好地应对这一问题 。此外,相比岭回归,Lasso回归可以直接将冗余预测变量的回归系数压缩到 0进 而 发挥 变量选择的作用, 获得精简且更有效率的预测变量集,同时也可以减少对重要回归系数的过度压缩 。 明白岭回归之后,理解Lasso回归就相对比较容易。事实上,套索估计量只是将岭回归的惩罚项(也称为 “正则项”)作了 “小小” 的技术调整, 即将 2-范数改为 1-范数。不难看Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。