赞
踩
首先创建一个表:
- df = pd.DataFrame({'A':[100, 100, 200, 300, 400],
- 'B':['a', 'a', 'c', 'd', 'e'],
- 'C':[3, 2, 1, 5, 4]})
生成出来的表如下所示:
1)找出df中A列值为100的所有数据
df[df.A==100]
这里也可以是小于(<)、大于(>)、小于等于(<=)、大于等于(>=)、不等于(!=)等情况。
2) 找出df中A列值为100、200、300的所有数据
- num = [100, 200, 300]
- df[df.A.isin(num)]
3) 找出df中A列值为100且B列值为‘a’的所有数据
df[(df.A==200)&(df.B=='c')]
4)找出df中A列值为100或B列值为‘b’的所有数据
df[(df.A==100)|(df.B=='b')]
这里需要注意的是,多条件筛选的时候,必须加括号'()'。
5) 需要删除B列的重复行,同时保留重复行中C列最大值所在的行
df.sort_values("C", ascending=False).drop_duplicates("B", keep='first').reset_index(drop=True)
可以看到,B列数据只有一个‘a’数据了,这句代码的意思是先对C列进行降序排序,然后删除B列重复的数据,keep参数是只保留第一个,因为是降序排序,第一个B列的C列数据相对于其他重复的C列数据是最大的(有点绕口)
参考:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。