数据科学猫：数据预处理之数据清洗(Data Cleansing)

作者：爱喝兽奶帝天荒 | 2024-08-15 15:33:44

踩

data cleansing

进击的橘子猫正式改名上线啦！

我的CSDN主页：https://blog.csdn.net/Orange_Spotty_Cat

也欢迎大家搜索微信公众号“进击的橘子猫”，我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。

让我们进击起来吧！

简介

本篇主要介绍机器学习建模中数据预处理步骤的数据清洗（Data Cleansing）部分。在本篇中，会对数据清洗的定义、目的以及清洗数据的方法进行讲解。

一句话概括版

数据清洗就是通过检查并处理无关数据、重复数据、空数据、异常数据、错误数据等来全面提升数据质量的过程。

数据清洗的定义

数据清洗（Data Cleansing）是数据预处理的一部分，这个步骤从建模初期的特征加工就需要开始进行，并且这个步骤的成功与否会直接影响建模的效果。英文有句话叫“Garbage in, garbage out”，意思就是输入（的数据）是垃圾，输出（的数据）也是垃圾。对数据不加以清洗与规范就跑出的模型，大概率也是无法使用的。因此，我们才需要在建模初期，就对需要加工的数据进行数据检测与数据清洗，以保证数据的质量。

所以，数据清洗的过程可以简单理解为提高数据质量的过程。在数据清洗的过程中，需要有效的识别那些错误的、无效的、重复的、缺失的数据，并对其进行处理，最终提高数据质量的唯一性、完整性、一致性、有效性与准确性的要求。

数据清洗的目标与数据质量

前面已经说过，数据清洗的目标就是提高数据质量，因此，我们这里有必要理解一下什么才算是好的数据质量。

如上图所示，好的数据质量需要满足以下四个标准：

唯一性：不存在无意义的重复数据

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/984115

数据科学猫：数据预处理 之 数据清洗(Data Cleansing)

简介

目录

一句话概括版

数据清洗的定义

数据清洗的目标与数据质量

数据科学猫：数据预处理之数据清洗(Data Cleansing)