当前位置:   article > 正文

pandas中drop_duplicates函数的用法

pandas中drop_duplicates函数的用法

drop_duplicates() 函数是 Pandas 中用于删除 DataFrame 中重复行的函数。它会返回一个去除重复行的新 DataFrame。该函数主要用于数据清洗和数据去重操作。

下面是 drop_duplicates() 函数的基本语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ...)

 

其中的参数含义如下:

  • subset:用于指定要考虑的列的子集,即在哪些列上查找重复行,默认为 None,表示在所有列上查找重复行。
  • keep:指定保留哪个重复行,默认为 'first',表示保留第一个出现的重复行;可选值还包括 'last'(保留最后一个出现的重复行)和 False(删除所有重复行)。
  • inplace:指定是否在原地修改 DataFrame,即是否直接修改原始对象而不返回副本,默认为 False

下面是一些示例说明 drop_duplicates() 函数的用法:

假设我们有以下 DataFrame:

删除所有重复行

  1. # 删除所有重复行
  2. df_deduplicated = df.drop_duplicates()
  3. print(df_deduplicated)

根据指定列删除重复行

  1. # 根据列 'A' 删除重复行
  2. df_deduplicated = df.drop_duplicates(subset='A')
  3. print(df_deduplicated)

 根据多列删除重复行

  1. # 根据列 'A' 和 'B' 删除重复行
  2. df_deduplicated = df.drop_duplicates(subset=['A', 'B'])
  3. print(df_deduplicated)

保留最后一个重复行

  1. # 保留最后一个重复行
  2. df_deduplicated = df.drop_duplicates(keep='last')
  3. print(df_deduplicated)

通过 drop_duplicates() 函数,你可以轻松地从 DataFrame 中删除重复行,保持数据的一致性和准确性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/759807
推荐阅读
相关标签
  

闽ICP备14008679号