赞
踩
这节介绍如何使用pandas做简单的数据分析,内容包括基本统计分析、分组分析、分布分析、交叉分析(透视表)、结构分析和相关性分析
以下实例数据文件,可以从该站内链接获取
1.基本统计分析
一般统计某变量的最大最小值,中值,分位值,中位数,众数,均值等
size 计数
sum() 求合
mean() 均值
var() 方差
std() 标准差
mode() 众数
median() 中位数
2.分组分析
根据分组字段将分析对象划分为不同部分,以对比分析各组之间差异性的一种分析方法
说白了就是:计数,求合,平均值
df.groupby(by=['分类1','分类2',...])[被统计的列].agg({列名1:统计函数1,列名2:函数2,...})
import pandas as pd
import numpy as np
df1 = pd.read_csv("../material/i_nuc_sheet7.csv")
df1 = df1.iloc[:,1:]
print(df1.head())
print(df1.describe())
group = df1.groupby(['班级']) #第一参就是by参数
print(group['军训','英语','体育',"性别"].mean()) #性别不是数值,会被忽略
print(df1.groupby(['班级',"性别"])['军训','英语','体育',"性别"].mean()) #先对班分组,再对性别分组
#如果对科目获取不同的统计量,要用到agg()
res = df1.groupby(by=['班级','性别'])['军训',"英语"].agg({
"总分":np.sum,
"人数":np.size,
"均值":np.mean,
"方差":np.var,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。