当前位置:   article > 正文

数据预处理_data.isnull().sum()

data.isnull().sum()

数据可能存在的问题

在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):

  1. 数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ”
  2. 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”
  3. 数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”
  4. 数据冗余 (Redundant)是数据量或者属性数目超出数据分析需要的情况。
  5. 数据集不均衡 (Imbalance)是各个类别的数据量相差悬殊的情况。
  6. 离群点/异常值 (Outliers)是远离数据集中其余部分的数据。
  7. 数据重复(Duplicate)是在数据集中出现多次的数据。

数据预览

  1. import pandas as pd
  2. import numpy as np
  3. data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据,把path改成文件路径;数据中有中文的话,就用encoding='gbk',没有中文的话就用encoding='utf-8';usecols是可以让我们选择哪几列
  4. data.head()#查看前五行
  5. data.i
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/282739?site
推荐阅读
相关标签
  

闽ICP备14008679号