当前位置:   article > 正文

线性回归---波士顿房价数据集(改)_题目:利用回归算法,对波士顿的历史房价数据及其相关的属性信息进行回归分析。

题目:利用回归算法,对波士顿的历史房价数据及其相关的属性信息进行回归分析。

这里我们用到了特征筛,为什么要进行特征进行选择?
在一个数据集中,我们需要找出对因变量影响显著的变量,对于显著性较低的我们进行剔除,留下显著性高的特征把它们加入模型,从而使我们的模型复杂度更低,更加的简洁,准确。

这篇文章使用反向淘汰的方法来进行此项工作

反向淘汰步骤:

  • 确定我们用来衡量显著性的一个阈值(决定取舍),这里我们取0.05
  • 将所有的特征ALL IN到模型进行训练
  • 计算出每个特征的P_value
  • 将P_value最高的且高于显著水平的阈值的特征从模型训练中剔除
  • 利用剩下的特征进行新一轮的拟合,如果存在P_value大于阈值,则返回4步,直到所有特征的P_value小于设定的阈值

关于P_value:
- p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性。产生的结果可能会带来争议。
- 零假设(null hypothesis),统计学术语,又称原假设,指进行统计检验时预先建立的假设。 零假设成立时,有关统计量应服从已知的某种概率分布。
当统计量的计算值落入否定域时,可知发生了小概率事件,应否定原假设。


数据集说明:

CRIM:城镇人均犯罪率。
ZN:住宅用地超过 25000 sq.ft. 的比例。
INDUS:城镇非零售商用土地的比例。
CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
NOX:一氧化氮浓度。
RM:住宅平均房间数。
AGE:1940 年之前建成的自用房屋比例。
DIS:到波士顿五个中心区域的加权距离。
RAD:辐射性公路的接近指数。
TAX:每 10000 美元的全值财产税率。
PTRATIO:城镇师生比例。
B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
LSTAT:人口中地位低下者的比例。
MEDV:自住房的平均房价,以千美元计。

#导入用到的库
import sklearn.datasets as datasets
import pandas as pd
import numpy as np
#载入数据集
Boston = datasets.load_boston()
# print(B
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/842064
推荐阅读
相关标签
  

闽ICP备14008679号