当前位置:   article > 正文

pandas 缺失值/重复值_pandas查看重复值

pandas查看重复值

Pandas 主要用 np.nan 表示缺失数据。 计算时,默认不包含空值。详见缺失数据

查看缺失值、重复值:

data.isnull()

data.duplicated()

统计缺失值、重复值

  1. (data.isnull()).sum()
  2. (data.duplicated()).sum()
  3. (data.duplicated(setsub = ['列名1', '列名2'])).sum()

删除整行都缺失的行、、删除重复值:

  1. data.dropna(how='all', inplace = TURE)
  2. inplace = TURE 同 data = data.dropna(how='all') 直接在数据上生效
  3. # 删除所有的缺失值
  4. data.dropna(how='any', inplace = TURE)
  5. data.drop_duplicates(subset = ['列名1', '列名2'], inplace = TURE)

填充缺失值:

data.fillna(value=5)

按列 排序:

data.sort_values(by = '列名')

提取 nan 值的布尔掩码:

  1. In [60]: pd.isna(df1)
  2. Out[60]:
  3. A B C D F E
  4. 2013-01-01 False False False False True False
  5. 2013-01-02 False False False False False False
  6. 2013-01-03 False False False False False True
  7. 2013-01-04 False False False False False True

 重建索引(reindex)可以更改、添加、删除指定轴的索引,并返回数据副本,即不更改原数据。

  1. In [55]: df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
  2. In [56]: df1.loc[dates[0]:dates[1], 'E'] = 1
  3. In [57]: df1
  4. Out[57]:
  5. A B C D F E
  6. 2013-01-01 0.000000 0.000000 -1.509059 5 NaN 1.0
  7. 2013-01-02 1.212112 -0.173215 0.119209 5 1.0 1.0
  8. 2013-01-03 -0.861849 -2.104569 -0.494929 5 2.0 NaN
  9. 2013-01-04 0.721555 -0.706771 -1.039575 5 3.0 NaN

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/540912
推荐阅读
相关标签
  

闽ICP备14008679号