赞
踩
这里我们用到了特征筛,为什么要进行特征进行选择?
在一个数据集中,我们需要找出对因变量影响显著的变量,对于显著性较低的我们进行剔除,留下显著性高的特征把它们加入模型,从而使我们的模型复杂度更低,更加的简洁,准确。
这篇文章使用反向淘汰的方法来进行此项工作
反向淘汰步骤:
关于P_value:
- p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性。产生的结果可能会带来争议。
- 零假设(null hypothesis),统计学术语,又称原假设,指进行统计检验时预先建立的假设。 零假设成立时,有关统计量应服从已知的某种概率分布。
当统计量的计算值落入否定域时,可知发生了小概率事件,应否定原假设。
数据集说明:
CRIM:城镇人均犯罪率。
ZN:住宅用地超过 25000 sq.ft. 的比例。
INDUS:城镇非零售商用土地的比例。
CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
NOX:一氧化氮浓度。
RM:住宅平均房间数。
AGE:1940 年之前建成的自用房屋比例。
DIS:到波士顿五个中心区域的加权距离。
RAD:辐射性公路的接近指数。
TAX:每 10000 美元的全值财产税率。
PTRATIO:城镇师生比例。
B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
LSTAT:人口中地位低下者的比例。
MEDV:自住房的平均房价,以千美元计。
#导入用到的库
import sklearn.datasets as datasets
import pandas as pd
import numpy as np
#载入数据集
Boston = datasets.load_boston()
# print(B
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。