赞
踩
pandas 是 Python 中用于数据分析和操作的一个强大库,它提供了快速、灵活和表达力强的数据结构,旨在使数据清洗和分析工作变得更加简单易行。pandas 适用于处理表格数据(例如CSV文件、SQL查询结果等)、时间序列数据,以及具有不同数据类型的数据集合。
要安装 pandas,可以使用 pip 包管理器。在命令行中输入以下命令:
pip install pandas
如果你使用的是 Anaconda 环境,pandas 通常已经预装在 Anaconda 发行版中。如果没有,你也可以使用 conda 来安装:
conda install pandas
在使用 pandas 之前,首先需要导入它:
import pandas as pd
pandas 支持多种格式的数据读取,包括 CSV、Excel、SQL 数据库、JSON 等。
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')
print(df.head())
print(df.describe())
column = df['column_name']
columns = df[['column1', 'column2']]
rows = df[df['column_name'] > value]
df = df.drop_duplicates()
df = df.fillna(value)
df['column'] = df['column'].astype(type)
df.rename(columns={'old_name': 'new_name'}, inplace=True)
df_concatenated = pd.concat([df1, df2], ignore_index=True)
df_merged = pd.merge(df1, df2, on='key_column', how='inner')
pandas 提供了强大的时间序列处理功能。
df['date_column'] = pd.to_datetime(df['date_column'])
df_resampled = df.resample('D').mean() # 按天重采样,计算平均值
grouped = df.groupby('column_name')
aggregated_data = grouped['another_column'].sum()
pivot_table = pd.pivot_table(df, values='value_column', index='row_column', columns='column_column', aggfunc='mean')
df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)
pandas 是 Python 数据分析领域的核心库之一,它提供了丰富的功能来处理和分析数据。通过本文的介绍,你应该已经了解了如何安装 pandas,以及如何使用它进行数据读取、查看、选择、清洗、转换、合并、时间序列处理、数据分组、数据透视表创建和文件输出等操作。pandas 的强大功能使得它成为数据科学家和分析师不可或缺的工具之一。
inplace=True
参数时要小心,因为这会在原地修改 DataFrame。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。