赞
踩
进击的橘子猫正式改名上线啦!
我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat
也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。
让我们进击起来吧!
本篇主要介绍机器学习建模中数据预处理步骤的数据清洗(Data Cleansing)部分。在本篇中,会对数据清洗的定义、目的以及清洗数据的方法进行讲解。
一句话概括版
数据清洗的定义
数据清洗的目标与数据质量
数据清洗的方法
数据清洗的常见操作
数据清洗就是通过检查并处理无关数据、重复数据、空数据、异常数据、错误数据等来全面提升数据质量的过程。
数据清洗(Data Cleansing)是数据预处理的一部分,这个步骤从建模初期的特征加工就需要开始进行,并且这个步骤的成功与否会直接影响建模的效果。英文有句话叫“Garbage in, garbage out”,意思就是输入(的数据)是垃圾,输出(的数据)也是垃圾。对数据不加以清洗与规范就跑出的模型,大概率也是无法使用的。因此,我们才需要在建模初期,就对需要加工的数据进行数据检测与数据清洗,以保证数据的质量。
所以,数据清洗的过程可以简单理解为提高数据质量的过程。在数据清洗的过程中,需要有效的识别那些错误的、无效的、重复的、缺失的数据,并对其进行处理,最终提高数据质量的唯一性、完整性、一致性、有效性与准确性的要求。
前面已经说过,数据清洗的目标就是提高数据质量,因此,我们这里有必要理解一下什么才算是好的数据质量。
如上图所示,好的数据质量需要满足以下四个标准:
唯一性:不存在无意义的重复数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。