当前位置:   article > 正文

lasso回归_多重共线性的处理方法之四:Lasso回归

lasso回归的优点
生物信息学背景下普遍存在着高维数据,所谓的“高维”即待估计的未知参数的个数是样本量的一个或几个数量级,例如Van’t Veer等学者收集的乳腺癌数据集共包括259例乳腺癌患者,25000个微阵列基因数据,研究变量个数25000远远大于样本量259,存在“高维”现象。如何从这种“高维”数据中, 挑选出那些真正有影响的变量,而将其他无影响或影响微弱的变量回归系数估 计为 0。岭回归的回归系数一般不为 0,虽然这不影响预测,但很难在这种“高维”数据中得出简洁而易于解释的“稀疏”模型。 为此,套索估计量(Least Absolute Shrinkage and Selection Operator,简记LASSO)应运而生。 Lasso模型是由Robert Tibshirani 在1996年 JRSSB上的一篇题名为“ Regression shrinkage and selection via the lasso”的文章中 所提出的一种能够实现指标集合精简的估计方 法。Lasso回归同时具有岭回归与子集选择的优点,使得它对于高维多重共线性问题在预测准确性和模型可解释性方面更优于其它的方法。

1.Lasso回归的基本思想

LASSO由于使用了 1-范数(即回归系数绝对值之和)作为惩罚项,故称为 “绝对值收缩”(Absolute Shrinkage),同时具备变量选择(Selection Operator),故得名 “最小绝对值收缩与筛选算子” (Least Absolute Shrinkage and Selection Operator)。类似于岭回归,Lasso模型同样属于一种正则化方法,即向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。我们几乎总是会发现,最好的拟合模型(从最小化泛化误差的意义上)是一个适当正则化的大型模型。

作为正则化方法的一种,lasso回归的基本思想就是是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。Lasso回归以回归系数的绝对值之和作为惩罚函数来压缩回归系数,即?Lasso(?)=λ,在参数估计中,由于绝对值符号难以进行拆解运算,可以将|??|转换为±1∗??,其中+1或-1的具体符号与??的符号一致。即Lasso损失函数的公式可以表示为?Lasso(?)=(|Y−Xβ|)2+λWTβ,该公式中?Lasso指Lasso回归模型的损失函数,X(n×p)、Y(n×1)β(p×1)分别是预测变量矩阵、结果变量向量和回归系数向量,而W(p×1)则是值为±1 (符号与β向量中对应的数值一致)的向量。

Lasso方法 避免了在预测变量过多时采用普通最小二乘估计(OLS)估计带来的过拟合和多重共线性的问题 。理论上来说,采用包含多重检验修正的验证性方法 ( 如逐步回归 )在回归过程中,后纳入的变量常常会因为与之前的变量存在相关而被削弱影响。Lasso方法则将预测变量集视为整体,可以较好地应对这一问题 。此外,相比岭回归,Lasso回归可以直接将冗余预测变量的回归系数压缩到 0进 而 发挥 变量选择的作用, 获得精简且更有效率的预测变量集,同时也可以减少对重要回归系数的过度压缩 。 明白岭回归之后,理解Lasso回归就相对比较容易。事实上,套索估计量只是将岭回归的惩罚项(也称为 “正则项”)作了 “小小” 的技术调整, 即将 2-范数改为 1-范数。不难看
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/598903
推荐阅读
  

闽ICP备14008679号