赞
踩
在将数据放入到模型中进行训练时,经常需要检验各维度之间的可能存在的多重共线性的问题。接下来将简单介绍共线性的识别和常用解决办法。
多重共线性:是指模型中的自变量之间存在较强的线性关系,多重共线性的存在不仅会导致模型的过拟合,而且还会导致回归模型的稳定性和准确性大大的降低。
容易出现多重共线性的场景:
一般含有如下指标:容忍度、方差膨胀因子、特征值等几个特征来进行判别。
常用的五种解决多重共线性的方法:
增大样本量
此法可以消除由于数据量不足而出现的偶然共线性的情况;但是存在着即使增加了样本量可能还无法解决共线性的问题,因为变量间确实存在着多重共线性的问题。
岭回归法
其是一种专用于共线性问题的有偏估计回归方法,实质上是一种改良的最小二乘估计。她是通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。因此岭回归在存在较强共线性的回归应用中较为常见。
逐步回归法
其是通过每次引入一个自变量并进行统计检验,然后逐步引入其他变量,同时对所有变量的回归系数检验。如果原来的变量由于后面的变量引入而变得不显著,则将其剔除,逐步得到回归方程。
主成分回归
将原始参与建模的变量转换为少数几个主成分,每个主成分是原始变量的线性组合,然后基于主成分做回归分析,这样可以在不丢失重要数据特征的前提下避开共线性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。