当前位置:   article > 正文

数据科学猫:数据预处理 之 数据清洗(Data Cleansing)

data cleansing

进击的橘子猫正式改名上线啦!

我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat 

也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。

让我们进击起来吧!

简介

  • 本篇主要介绍机器学习建模中数据预处理步骤的数据清洗(Data Cleansing)部分。在本篇中,会对数据清洗的定义、目的以及清洗数据的方法进行讲解。

目录

  • 一句话概括版

  • 数据清洗的定义

  • 数据清洗的目标与数据质量

  • 数据清洗的方法

  • 数据清洗的常见操作

 

 

一句话概括版

数据清洗就是通过检查并处理无关数据、重复数据、空数据、异常数据、错误数据等来全面提升数据质量的过程。

 

数据清洗的定义

数据清洗(Data Cleansing)是数据预处理的一部分,这个步骤从建模初期的特征加工就需要开始进行,并且这个步骤的成功与否会直接影响建模的效果。英文有句话叫“Garbage in, garbage out”,意思就是输入(的数据)是垃圾,输出(的数据)也是垃圾。对数据不加以清洗与规范就跑出的模型,大概率也是无法使用的。因此,我们才需要在建模初期,就对需要加工的数据进行数据检测与数据清洗,以保证数据的质量。

所以,数据清洗的过程可以简单理解为提高数据质量的过程。在数据清洗的过程中,需要有效的识别那些错误的、无效的、重复的、缺失的数据,并对其进行处理,最终提高数据质量的唯一性、完整性、一致性、有效性与准确性的要求。

 

 

数据清洗的目标与数据质量

前面已经说过,数据清洗的目标就是提高数据质量,因此,我们这里有必要理解一下什么才算是好的数据质量。

如上图所示,好的数据质量需要满足以下四个标准:

  • 唯一性:不存在无意义的重复数据

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/984115
推荐阅读
相关标签
  

闽ICP备14008679号