赞
踩
问题:根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据
解析:求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果
案例:取一下dataframe中B列各对象中C值最高所在的行
df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})
Groupby的基本功能介绍
[In]df.groupby('B')
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>
[In]df.groupby('B')['A'] # 返回SeriesGroupBy对象
[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>
[In]df.groupby('B')['A','C'] # 返回DataFrameGroupBy对象
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>
[In] df.groupby('B', as_index=False)['A'].count() # 组内数据统计
[Out] B A
0 a 2
1 b 2
[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计,size和count的一个显著区别在于count不考虑Nan,size考虑Nan
[Out] B Size
0 a 2
1 b 2
解决方案一:对DataFrameGroupBy对象,用apply函数进行某列的sort_values排序,再选出其中的最大值所在行
# 返回值是一个带有multiindex的dataframe数据,其中level=0为groupby的by列,而level=1为原index [In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False)) [Out] A B C B a 3 4 a 201003 0 2 a 200801 b 1 3 b 200902 2 5 b 200704 # 通过设置group_keys参数对multiindex进行优化 [In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)) [Out] A B C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704 # 再次groupby,并调用内置的first()方法,取最大值 [In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index() [Out] B A C 0 a 4 201003 1 b 3 200902
解决方案二:先对B进行整体的sort_values,在groupy取值
[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()
[Out] B A C
0 a 4 201003
1 b 3 200902
问题拓展: 以上仅解决了Top-1的问题,如果是Top-k呢?
答案:将first()函数变为head()函数
[In] df.sort_values('C', ascending=False).groupby('B').head(2)
[Out] A B C
3 4 a 201003
1 3 b 200902
0 2 a 200801
2 5 b 200704
总结:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。