赞
踩
drop_duplicates()
函数是 Pandas 中用于删除 DataFrame 中重复行的函数。它会返回一个去除重复行的新 DataFrame。该函数主要用于数据清洗和数据去重操作。
下面是 drop_duplicates()
函数的基本语法:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ...)
其中的参数含义如下:
subset
:用于指定要考虑的列的子集,即在哪些列上查找重复行,默认为 None
,表示在所有列上查找重复行。keep
:指定保留哪个重复行,默认为 'first'
,表示保留第一个出现的重复行;可选值还包括 'last'
(保留最后一个出现的重复行)和 False
(删除所有重复行)。inplace
:指定是否在原地修改 DataFrame,即是否直接修改原始对象而不返回副本,默认为 False
。下面是一些示例说明 drop_duplicates()
函数的用法:
假设我们有以下 DataFrame:
- # 删除所有重复行
- df_deduplicated = df.drop_duplicates()
- print(df_deduplicated)
- # 根据列 'A' 删除重复行
- df_deduplicated = df.drop_duplicates(subset='A')
- print(df_deduplicated)
- # 根据列 'A' 和 'B' 删除重复行
- df_deduplicated = df.drop_duplicates(subset=['A', 'B'])
- print(df_deduplicated)
- # 保留最后一个重复行
- df_deduplicated = df.drop_duplicates(keep='last')
- print(df_deduplicated)
通过 drop_duplicates()
函数,你可以轻松地从 DataFrame 中删除重复行,保持数据的一致性和准确性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。