当前位置:   article > 正文

《数据挖掘:概念与技术》-第3章:数据预处理_数据挖掘之数据预处理课后习题答案

数据挖掘之数据预处理课后习题答案

预处理目的:

数据要得以应用,必须是高质量的。高质量包括以下6点:
1. 准确性
2. 完整性
3. 一致性
4. 时效性
5. 可信性
6. 可解释性

数据处理的步骤:

  1. 数据清理:消除噪音,纠正不一致。
  2. 数据集成:不同数据源合并一个,数据仓库。
  3. 数据规约:聚集和删除冗余,降低数据规模。
  4. 数据变换:数据压缩(映射)较小的区间。

数据清理

造成数据不准确、不完整、不一致的原因:
eg.
不准确:比如用户填写数据故意填错。
不完整:比如采集器故障,不能上传数据。
不一致:上传的数据格式不一致。

不完整:缺少属性值
噪音:错误或者偏离期望的值

填充缺失值、光滑噪音、识别离散群、纠正数据一致性。

最优的方法:回归、贝叶斯

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/472912
推荐阅读
相关标签
  

闽ICP备14008679号