赞
踩
groupby函数功能:对DataFrame进行分组(可单类分组,可多类分组)
需求:按“字段”列对数据data进行分组
groupby函数基本格式:data.groupby([‘分组字段’])
举例:
原数据data:
根据“班级”进行分组:
import pandas as pd
data = pd.read_excel('/Users/ABC/Documents/工作簿1.xlsx')
for name, group in data.groupby(['班级']):
num_g = group['班级'].count() # 获取组内记录数目
print(name) # name为班级名称
print(num_g)
print(group) # group为每个分组中的记录情况
print('---------------')
“班级”分组结果:
import pandas as pd
data = pd.read_excel('/Users/ABC/Documents/工作簿1.xlsx')
for name, group in data.groupby(['班级','科目']):
num_g = group['学号'].count() # 获取组内记录数目
print(name) # name为班级名称
print(num_g)
print(group) # group为每个分组中的记录情况
print('---------------')
“班级”和“科目”分组结果:
groupby函数产生的结果是个迭代器,若打印输出data.groupby([‘分组字段’])的结果可能会运行处以下结果:
要输出具体的结果详情可以用for循环读取(参考上文举例中的代码),其中每个分组结果中包含 分组名称(上文举例代码中:name)和分组记录(上文举例代码中:group)
当需要对分组记录- group中的记录进行进一步操作时,发现常用的取列等操作报错
需要将分组记录-group转化为DataFrame类型
转化思路:
用group.values得到一个数组,再将数组用array.tolist()方法转化为列表,再用列表作为参数传入pd.DataFrame()方法中
注意:转化生成的DataFrame没有原数据的列名,需要用DataFrame.columns具体指定
举例:
import pandas as pd
data = pd.read_excel('/Users/ABC/Documents/工作簿1.xlsx')
for name, group in data.groupby(['班级']):
list_group = group.values.tolist()# 将group.values数组转化为array.tolist()列表
group_df = pd.DataFrame(list_group)# 将array.tolist()列表转化为DataFrame
group_df.columns = ['学号', '姓名', '班级', '科目', '成绩']# 生成的DataFrame无原列名,而是默认的列索引,因此为DataFrame指定列名
print(group_df)
print(group_df['学号'])# DataFrame取列操作
print('---------------')
运行结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。