赞
踩
前言:我看有人的博客学习资料本就是基础知识然后还整个付费专栏博客,那我就直接打破这一垄断,直接上干货免费资料供大家学习。
国赛高教杯数据处理全过程总结
⚫ 数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
⚫ 现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。
−数据的不一致:各系统间的数据存在较大的不一致性
如属性重量的单位:
A数据库重量单位kg
B数据库重量单位g
−噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。
收集数据的时候难以得到精确的数据,主要原因:
收集数据的设备可能出现故障;
数据输入时可能出现错误;
数据传输过程中可能出现错误;
存储介质有可能出现损坏等。
− 缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
− 原因可能有:
⚫ 有些属性的内容有时没有(家庭收入,参与销售事务数据中的顾客信息);
⚫ 有些数据当时被认为是不必要的;
⚫ 由于误解或检测设备失灵导致相关数据没有记录下来;
⚫ 与其它记录内容不一致而被删除;
⚫ 忽略了历史数据或对数据的修改。
数据质量要求
⚫ 准确性:数据记录的信息是否存在异常或错误。
⚫ 完整性:数据信息是否存在缺失。
⚫ 一致性:指数据是否遵循了统一的规范,数据集合是否 保持了统一的格式
⚫ 时效性:某些数据是否能及时更新
⚫ 可信性:用户信赖的数据的数量
⚫ 可解释性:指数据自身是否易于人们理解
数据预处理的主要任务
⚫ 数据清理(清洗):去掉数据中的噪声,纠正不一致。
⚫ 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
⚫ 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
⚫ 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。
数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。
• 缺失值的处理;
• 噪声数据;
• 不一致数据。
空缺值的处理
– 引起空缺值的原因
• 设备异常
• 与其他已有数据不一致而被删除
• 因为误解而没有被输入的数据
• 在输入时,有些数据因为得不到重视而没有被输入
• 对数据的改变没有进行日志记载
– 空缺值要经过推断而补上
如何处理空缺值?
1)忽略元组:
• 若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
• 但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
2)忽略属性列:
• 若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
3)人工填写空缺值:
• 工作量大,可行性低
4)使用属性的中心度量值填充空缺值:
• 如果数据的分布是正常的,就可以使用均值来填充缺失值
• 如果数据的分布是倾斜的,可以使用中位数来填充缺失值。
5)使用一个全局变量填充空缺值:
• 对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
6)使用可能的特征值来替换空缺值(最常用):
• 生成一个预测模型,来预测每个丢失值
• 如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
–噪声(noise) :被测量的变量产生的随机错误或误差
• 数据收集工具的问题
• 数据输入错误
• 数据传输错误
• 技术限制
• 命名规则的不一致
如何检测噪声数据?
1)基于统计的技术
• 使用距离度量值(如马氏距离)来实现。
• 给定p维数据集中的n个观察值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。