赞
踩
1.数据错误:
错误类型
– 脏数据或错误数据
• 比如, Age = -2003
– 数据不正确
• ‘0’ 代表真实的0,还是代表缺失
– 数据不一致
• 比如收入单位是万元,利润单位是元,或者一个单位是
美元,一个是人民币
– 数据重复
2.缺失值处理:
处理原则
–缺失值少于20%
•连续变量使用均值或中位数填补
•分类变量不需要填补,单算一类即可,或者用众数填补
–缺失值在20%-80%
•填补方法同上
•另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模
–缺失值在大于80%
•每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不使用。
3.离群值
3.1单变量离群值处理:
.绘图。
在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者不明显。
学生化(标准化)
•用变量除以他们的标准误就可得到学生化数值
建议的临界值:
–|SR| >2 ,用于观察值较少的数据集
–|SR| >3,用于观察值较多的数据集
3.2多变量离群值
1.绘图。
在图中找出明显的离群值
2.聚类法确定离群值(不要对原有数据进行改变)
聚类效果评判指标:(群内方差(距离)最小化,群间方差(距离)最大化;这里方差可以理解为一种距离(欧式距离的平方—欧式距离))
了解清洗后,接下来,就来学习一下Python的数据清洗吧!
现在有一份心脏病患者的数据,经过问卷调查之后,最终录入数据如下:
Age:年龄
Areas:来自哪里,有A/B/C/D四个地区
ID:患者的唯一识别编号
Package:每天
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。