赞
踩
目录
1.1 DataFrame识别重复值-duplicated()
在实际数据采集、数据处理和数据分析中,经常会遇到的一个问题就是:重复数据。重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响。比如,在逻辑回归分析中,重复数据会影响模型的拟合优度;数据分析中,重复数据会影响预测内容准确性。所以,处理重复值数据有着重要的意义和作用。
- data.duplicated()
- data.duplicated("sex")
- import pandas as pd
- s = pd.Series(range(5),index=['a','a','b','b','c'])
- s.index.is_unique
data.duplicated().sum()
数据去重是处理重复值的主要方法,但如下几种情况慎重去重:
(1)样本不均衡时,故意重复采样的数据;
(2)分类模型,某个分类训练数据过少,可以采取简单复制样本的方法来增加样本数量
重复记录用户检测业务规则问题
(3)事务型数据,尤其与钱相关的业务场景下出现重复数据时,如重复订单,重复出库申请
- data.drop_duplicates()
- data.drop_duplicates(["age"]) #删除数据中指定列值相同的记录
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。