赞
踩
数据分析的第一步往往是数据清洗,这个过程关键在于理解、整理和清洗原始数据,为进一步分析做好准备。Python 语言通过Pandas库提供了一系列高效的数据清洗工具。接下来,该文章将通过一个简单的案例演示如何利用 Pandas 进行数据清洗,并准备数据分析。
Pandas是为Python编程语言创建的一款用于数据操作和分析的库。Pandas通过两种主要的数据结构——Series和DataFrame,对数据进行处理。
我们将使用Pandas处理一个简单的数据集,数据集包含ID、姓名、年龄以及城市。目标是清洗掉缺失值和重复数据。
import pandas as pd
# 数据
data = {'ID': [1, 2, 2, 3, 4, 5, 5],
'Name': ['Alice', 'Bob', 'Bob', 'Charlie', 'David', 'Edward', pd.np.nan],
'Age': [24, pd.np.nan, 22, 23, 24, 25, 25],
'City': ['NY', 'SF', 'SF', 'LA', 'LA', 'NY', 'NY']}
df = pd.DataFrame(data)
数据集如下:
print(df)
# ID Name Age City
# 0 1 Alice 24.0 NY
# 1 2 Bob NaN SF
# 2 2 Bob 22.0 SF
# 3 3 Charlie 23.0 LA
# 4 4 David 24.0 LA
# 5 5 Edward 25.0 NY
# 6 5 NaN 25.0 NY
现在我们要做的是清除掉重复数据和缺失值:
# 移除重复的行
df.drop_duplicates(inplace=True)
# 填充或移除年龄是 NaN 的行
df.dropna(subset=['Age'], inplace=True)
print(df)
清洗后的数据集:
# ID Name Age City
# 0 1 Alice 24.0 NY
# 2 2 Bob 22.0 SF
# 3 3 Charlie 23.0 LA
# 4 4 David 24.0 LA
# 5 5 Edward 25.0 NY
如上例所示,Pandas 库提供了一系列强大的数据清洗功能,可以有效解决数据清洗中遇到的各种问题。对于任何涉及数据操作和分析的Python项目来说,Pandas都是不可或缺的工具库。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。