python duplicated函数_Python Pandas Dataframe.duplicated()用法及代码示例

作者：从前慢现在也慢 | 2024-05-05 21:46:25

踩

python duplicated

Python是进行数据分析的一种出色语言，主要是因为以数据为中心的python软件包具有奇妙的生态系统。 Pandas是其中的一种，使导入和分析数据更加容易。

数据分析的重要部分是分析重复值并将其删除。 Pandas duplicated()方法仅有助于分析重复值。它返回一个布尔序列，仅对唯一元素而言为True。

用法:

DataFrame.duplicated(subset=None, keep='first')

参数:

subset:取得一列或列标签列表。默认值为无。传递列后，它将仅将它们视为重复项。

keep:控制如何考虑重复值。它只有三个不同的值，默认值为“第一”。

->如果为“第一个”，则它将第一个值视为唯一值，并将其余相同的值视为重复值。

->如果为“ last”，则它将last值视为唯一值，并将其余相同的值视为重复值。

->如果为False，则将所有相同的值视为重复项。

要下载使用的CSV文件，请单击此处。例1：返回布尔序列

在下面的示例中，根据“名字”列中的重复值返回布尔系列。

# importing pandas package

import pandas as pd

# making data frame from csv file

data = pd.read_csv("employees.csv")

# sorting by first name

data.sort_values("First Name", inplace = True)

# making a bool series

bool_series = data["First Name"].duplicated()

# displaying data

data.head()

# display data

data[bool_series]

输出：

如输出图像中所示，由于keep参数的默认值为“ first”，因此，无论何时出现名称，第一个都将被视为“唯一”，并且会被视为“重复”。

范例2：删除重复项

在此示例中，keep参数设置为False，以便仅采用唯一值，并从数据中删除重复值。

# importing pandas package

import pandas as pd

# making data frame from csv file

data = pd.read_csv("employees.csv")

# sorting by first name

data.sort_values("First Name", inplace = True)

# making a bool series

bool_series = data["First Name"].duplicated(keep = False)

# bool series

bool_series

# passing NOT of bool series to see unique values only

data = data[~bool_series]

# displaying data

data.info()

data

输出：

由于duplicated()方法对于重复项返回False，因此采用该系列的NOT来查看数据帧中的唯一值。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/540980