当前位置:   article > 正文

python | Pandas库数据预处理-重复值篇:drop_duplicates()函数及其subset参数、keep参数_dropduplicates()方法的作用

dropduplicates()方法的作用

相关文章 

python | Pandas库数据预处理-缺失值篇:info()、isnull()、dropna()、fillna()函数icon-default.png?t=N7T8https://blog.csdn.net/m0_61523149/article/details/124009296


目录

原数据

导入数据

drop_duplicates():去重函数

subset参数:设置去重参照列

keep参数:设置去重要保留的数据


原数据


导入数据

  1. import pandas as pd
  2. student = pd.read_excel(r'E:\2022Python\重复值数据.xlsx')
  3. # 原数据
  4. print(student)

输出结果如下:

  1. 学号 姓名 性别 班级
  2. 0 1 小明 男 1
  3. 1 1 小明 男 1
  4. 2 2 小红 女 2
  5. 3 2 小聪 男 2
  6. 4 3 小亮 男 1
  7. 5 3 小丽 女 2
  8. 6 4 小晶 男 3
  9. 7 5 小美 女 4

drop_duplicates():去重函数

  1. # 按所有列去重,默认保留第一个
  2. print(student.drop_duplicates())

输出结果如下:

  1. 学号 姓名 性别 班级
  2. 0 1 小明 男 1
  3. 2 2 小红 女 2
  4. 3 2 小聪 男 2
  5. 4 3 小亮 男 1
  6. 5 3 小丽 女 2
  7. 6 4 小晶 男 3
  8. 7 5 小美 女 4

subset参数:设置去重参照列

  1. # 按某几列去重,默认保留第一个
  2. print(student.drop_duplicates(subset=['学号', '班级']))
  3. # 按某一列去重,默认保留第一个
  4. print(student.drop_duplicates(subset='学号'))

输出结果如下:

  1. 学号 姓名 性别 班级
  2. 0 1 小明 男 1
  3. 2 2 小红 女 2
  4. 4 3 小亮 男 1
  5. 5 3 小丽 女 2
  6. 6 4 小晶 男 3
  7. 7 5 小美 女 4
  8. 学号 姓名 性别 班级
  9. 0 1 小明 男 1
  10. 2 2 小红 女 2
  11. 4 3 小亮 男 1
  12. 6 4 小晶 男 3
  13. 7 5 小美 女 4

keep参数:设置去重要保留的数据

  1. # 'first':保留第一个
  2. print(student.drop_duplicates(keep='first'))
  3. # 'last':保留最后一个
  4. print(student.drop_duplicates(keep='last'))
  5. # False:全部不保留
  6. print(student.drop_duplicates(keep=False))

输出结果如下:

  1. 学号 姓名 性别 班级
  2. 0 1 小明 男 1
  3. 2 2 小红 女 2
  4. 3 2 小聪 男 2
  5. 4 3 小亮 男 1
  6. 5 3 小丽 女 2
  7. 6 4 小晶 男 3
  8. 7 5 小美 女 4
  9. 学号 姓名 性别 班级
  10. 1 1 小明 男 1
  11. 2 2 小红 女 2
  12. 3 2 小聪 男 2
  13. 4 3 小亮 男 1
  14. 5 3 小丽 女 2
  15. 6 4 小晶 男 3
  16. 7 5 小美 女 4
  17. 学号 姓名 性别 班级
  18. 2 2 小红 女 2
  19. 3 2 小聪 男 2
  20. 4 3 小亮 男 1
  21. 5 3 小丽 女 2
  22. 6 4 小晶 男 3
  23. 7 5 小美 女 4

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/759840
推荐阅读
相关标签
  

闽ICP备14008679号