小丑西瓜9

这个屌丝很懒，什么也没留下！

热门标签

article

python之pandas索引、DataFrame数据选取及filter介绍_pandas filter

作者：小丑西瓜9 | 2024-02-15 22:36:35

踩

pandas filter

1.数据筛选

    a   b   c
0   0   2   4
1   6   8  10
2  12  14  16
3  18  20  22
4  24  26  28
5  30  32  34
6  36  38  40
1
2
3
4
5
6
7
8

1.1 单条件筛选

df[df['a']>30]
# 筛选a列的取值大于30的记录,但只显示满足条件的b，c列的值
df[['b','c']][df['a']>30]
# 使用isin函数根据特定值筛选记录。筛选a值等于30或者54的记录
df[df.a.isin([30, 54])]
# 选择时间小于10秒的行
time_series = time_series[time_series.index < timedelta(seconds=10)]
c2 = c1[c1.values == class_num]

#过滤掉为 0 的行
data = df[df[self.time_col].apply(lambda x: str(x)) != '0']

print(df[df["Supplier Name"].str.contains('Z')])
print(df[df['Cost'].str.strip('$').astype(float) > 600])
#行中的值匹配某个模式
print(df[df['Invoice Number'].str.startswith("001-")])
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

1.2 多条件筛选

可以使用&（并）与| （或）操作符或者特定的函数实现多条件筛选

# 使用&筛选a列的取值大于30，b列的取值大于40的记录
df[(df['a'] > 30) & (df['b'] > 40)]
# 多条件筛选 + 索引重置
data = meso_data[(self.meso_data['time'] >= start_date) & (self.meso_data['time'] <= end_date)].reset_index(drop=True)
1
2
3
4

1.3 索引筛选

1.3.1 切片操作

df[行索引，列索引]或df[[列名1，列名2]]

# 使用切片操作选择特定的行
df[1:4]
#传入列名选择特定的列
df[['a','c']]
1
2
3
4

1.3.2 loc函数

当每列已有column name时，用 df [ ‘a’ ] 就能选取出一整列数据。如果你知道column names 和 index，且两者都很好输入，可以选择 .loc同时进行行列选择。

In [28]: df.loc[0, 'c']
Out[28]: 4

In [29]: df.loc[1: 4, ['a','c']]
Out[29]:
    a   c
1   6  10
2  12  16
3  18  22
4  24  28

In [30]: df.loc[[1,3,5], ['a','c']]
Out[30]:
    a   c
1   6  10
3  18  22
5  30  34

df = df.loc[(df['行业编码'] == 1) & (df['单位编码'] == 102)]
use_df = tenmin.loc[(tenmin['状态'] == 5) & (tenmin['模式'] == 0) & (tenmin['完整率'] >= 0.9)]
# 根据某两列条件选择数据，然后索引重置
Data= Data.loc[(Data['num'] >= 0) & (Data['num'] <= 70)].reset_index(drop=True)
df.loc[df[ws_name] > CutOutWS, power_name] = 0

ws_ym_ak.loc[(ws_ym_ak.year == date[0]) & (ws_ym_ak.month == date[1]), 'A'].values[0]
Out[112]: 7.2683892675086845

ws_ym_ak.loc[(ws_ym_ak.year == date[0]) & (ws_ym_ak.month == date[1]), 'K'].values[0]
Out[113]: 3.97522610048051

#按时间过滤行，同时选择['time', 'filled_ws']两列
construct_ws = target.loc[(target['time'] >= start) & (target['time'] < end), ['time', 'filled_ws']]

#取一个值，行满足year=date[0],month=date[1]时，第'A'列对应的值。
ws.loc[(ws.year == date[0]) & (ws.month == date[1]), 'A'].values[0] 

ws.loc[(ws.year == date[0]) & (ws.month == date[1]), 'A'].values #是一个<class 'numpy.ndarray'>
ws.loc[(ws.year == date[0]) & (ws.month == date[1]), 'A'] #是一个<class 'pandas.core.series.Series'>

temp = (Data['wtb_std'] < firm_wd_std) & (Data['wrf_std'] < firm_wd_std)  # bool型结果
Merged_Data = Data.loc[temp, :]  # 根据上面的bool结果，筛选数据

data = data.loc[data['std']>0, :]

#过滤之后再求mean均值
test = np.mean(repr_year.loc[(repr_year['信息时间'] >= turbine_info['ays_start']) & 
(repr_year['信息时间'] >= pd.to_datetime(turbine_info['ays_end'])), 'ws_mean'].values)
test = repr_year.loc[(repr_year['信息时间'] >= turbine_info['ays_start']) & 
(repr_year['信息时间'] <= pd.to_datetime(turbine_info['ays_end'])), 'ws_mean'].mean()

x_1 = sales_train_validation.loc[sales_train_validation['id'] == ids[2]].set_index('id')[d_cols].values[0]

df.loc[(df["Supplier Name"].str.contains('Z'))|(df['Cost'].str.strip('$').astype(float) > 600.0), :]

li = [2341, 6650]
print(df[df['Part Number'].isin(li)])
print(df.loc[df['Part Number'].astype(int).isin(li), :])

#选取特定的列
#列标题打印
print(df.loc[:,["Invoice Number", "Part Number"]])
#选取连续的行
print(df.loc[1:4, :])
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63

1.3.3 iloc函数

如果column name太长，输入不方便，或者index是一列时间序列，更不好输入，那就可以选择 .iloc了，该方法接受列名的index,iloc 使得我们可以对column使用slice（切片）的方法对数据进行选取。这边的 i 我觉得代表index，比较好记点。

In [35]: df.iloc[0, 2]
Out[35]: 4

In [34]: df.iloc[1: 4, [0,2]]
Out[34]:
    a   c
1   6  10
2  12  16
3  18  22

In [36]: df.iloc[[1,3,5], [0,2]]
Out[36]:
    a   c
1   6  10
3  18  22
5  30  34

In [38]: df.iloc[[1,3,5], 0:2]
Out[38]:
    a   b
1   6   8
3  18  20
5  30  32

start = temp_df[target_col].iloc[0]
end = temp_df[target_col].iloc[-1]

#直接用iloc选择某行
production_end = pd.to_datetime(data[time_col].iloc[-1])

#列索引值,打印1，3列
print(df.iloc[:, 1:4:2])
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

1.3.4 ix函数

ix的功能更加强大，参数既可以是索引，也可以是名称，相当于，loc和iloc的合体。需要注意的是在使用的时候需要统一，在行选择时同时出现索引和名称，同样在同行选择时同时出现索引和名称。

df.ix[1: 3, ['a','b']]
Out[41]:
    a   b
1   6   8
2  12  14
3  18  20

In [42]: df.ix[[1,3,5], ['a','b']]
Out[42]:
    a   b
1   6   8
3  18  20
5  30  32

In [45]: df.ix[[1,3,5], [0,2]]
Out[45]:
    a   c
1   6  10
3  18  22
5  30  34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

1.3.5 at函数

根据指定行index及列label，快速定位DataFrame的元素，选择列时仅支持列名。

In [46]: df.at[3, 'a']
Out[46]: 18
1
2

1.3.6 iat函数

与at的功能相同，只使用索引参数

In [49]: df.iat[3,0]
Out[49]: 18
1
2

2.filter

python筛选列表中大于0的数据的方法：

1、使用匿名函数lambda和filter函数筛选列表中大于0的数据

Ldata = [1, 2, 3, 4, 5, 6, -1, -2]
res1 = list(filter(lambda x: x > 0, Ldata))
print(res1)

输出结果如下：
[1, 2, 3, 4, 5, 6]
#挑选df中，每行全部大于0，的行
df0 = df[df.apply(lambda x: len(list(filter(lambda y: y > 0, x))) == len(x), axis=1)]
# 差分后，剔除全为正之后
df_1 = df[df.apply(lambda x: len(list(filter(lambda y: y > 0, x[:5]))) >= 4, axis=1)]

1
2
3
4
5
6
7
8
9
10
11

2、使用列表解析筛选列表中大于0的数据

Ldata = [1, 2, 3, 4, 5, 6, -1, -2]
res1 = [x for x in Ldata if x > 0]
print(res1)
1
2
3

输出结果如下：

[1, 2, 3, 4, 5, 6]
1

3. 其它

df 是包含多个列的 dataframe，且其值只包括 False 和 True 两种。下面代码的作用是，删除全为False的行。

df_filtered = df[~(df == False).all(axis=1)]
1

参考链接：
[1] python怎么筛选列表中大于0的数据？2020.5
[2] python之pandas数据筛选和csv操作 2019.8

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/87716

推荐阅读

article
挑战杯 python+深度学习+opencv实现植物识别算法系统
Tornado全称TornadoWebServer，是一个用Python语言写成的Web服务器兼Web应用框架，由FriendFeed公司在自己的网站FriendFeed中使用，被Facebook收购以后框架在2009年9月以开源软件形式开... [详细]
赞
踩
article
电力负荷预测 | 基于GRU门控循环单元的深度学习电力负荷预测，含预测未来（Python）
电力负荷预测|基于GRU门控循环单元的深度学习电力负荷预测，含预测未来（Python）电力负荷预测|基于GRU门控循环单元的深度学习电力负荷预测，含预测未来（Python）文章目录效果一览文章概述源码设计参考资料效果一览文章概述电力负荷预测... [详细]
赞
踩
article
挑战杯 python+opencv+机器学习车牌识别
车牌识别这个系统，虽然传统，古老，却是包含了所有这四个特侦的一个大数据技术的缩影.在车牌识别中，你需要处理的数据是图像中海量的像素单元；你处理的数据不再是传统的结构化数据，而是图像这种复杂的数据；如果不能在很短的时间内识别出车牌，那么系统就... [详细]
赞
踩
article
挑战杯 python+opencv+深度学习实现二维码识别
二维条码/二维码（2-dimensionalbarcode）是用某种特定的几何图形按一定规律在平面（二维方向上）分布的、黑白相间的、记录数据符号信息的图形；在代码编制上巧妙地利用构成计算机内部逻辑基础的“0”、“1”比特流的概念，使用若干个... [详细]
赞
踩
article
python elasticsearch 分组统计_python bool must 多字段aggregations分组
聚合（Aggregations）：query={"query":{"bool":{"must":[{"term":{"company_id":company_id}},..._pythonboolmust多字段aggregations分组p... [详细]
赞
踩
article
【ES笔记02】ElasticSearch数据库之查询操作（match、must、must_not、should、_source、filter、range、exists、ids、term、terms）_es 查询
match关键字，相当于mysql数据库中的like查询，match查询的字段如果是text类型，那么text会被分词，match就会匹配分词，查询所有包含分词的doc文档，如果不是text类型的，那就是精确查询。当查询条件有很多个的时候，... [详细]
赞
踩
article
Python 代码托管到码云平台，原来这么简单_python 提交代码到码云详解
场景1：我有2个电脑，公司一台，家里一台。我想在两台电脑上都进行同步开发。这时候我只要gitpush/pull一下就能够同步了，不再需要用U盘拷来拷去场景2：我要在服务器部署程序，没有图形界面，也物理不可达，怎么办?gitclone一下就行... [详细]
赞
踩
article
228.【2023年华为OD机试真题（C卷）】传递悄悄话（优先搜索（DFS）-Java&Python&C++&JS实现）_华为机试传递悄悄话
【2023年华为OD机试真题（C卷）】传递悄悄话（优先搜索（DFS）-Java&Python&C++&JS实现）给定一个二叉树，每个节点上站着一个人，节点数字表示父节点到该节点传递悄悄话需要花费的时间。初始时，根节点所在位置的人有一个悄悄话... [详细]
赞
踩
article
如何使用 Python 3 中的 Requests 和 Beautiful Soup 处理 Web 数据
网络为我们提供了比我们能阅读和理解的更多数据，因此我们经常希望以编程方式处理这些信息，以便理解它。有时，网站创建者通过.csv或逗号分隔值文件或通过API（应用程序编程接口）向我们提供这些数据。其他时候，我们需要自己从网络上收集文本。本教程... [详细]
赞
踩
article
Reactor响应式编程记录web访问日志 filter+AOP_eactiverequestcontextfilter implements webfilter
为了伙计们少走一点弯路，菜鸡的简单方法，利用Webfilter接口去写访问日志百度AOP中获取Request和Response对象从来都是null，不要疑惑为啥，因为你跟别人不一样，别人都是一个web一个线程，你用reactor是异步的能从... [详细]
赞
踩
article
曲线生成 | 图解贝塞尔曲线生成原理(附ROS C++/Python/Matlab仿真)_贝塞尔曲线模拟
贝塞尔曲线使用一组控制点来定义曲线的形状，这些控制点的位置和数量决定了曲线的特征，在机器人领域应用非常广泛。本文图解贝塞尔曲线生成原理并进行详细推导，给出ROSC++/Python/Matlab三种仿真加深理解_贝塞尔曲线模拟贝塞尔曲线模拟... [详细]
赞
踩
article
【python】python新年烟花代码【附源码】_如何用python做新年程序
python新年烟花代码【附源码】_如何用python做新年程序如何用python做新年程序欢迎来到英杰社区https://bbs.csdn.n... [详细]
赞
踩
article
【github action+python】完成定时任务并推送（学会自制）_glados自动签到
参考图文解释Glados自动签到免费获取天数（githubaction版）之前用了一阵sever酱，然后前两天说cookie过期了，后来改了也没用，于是想自己写一份cookie不过期的。我尝试了半天，一直报一个json格式的错。（在电脑是可... [详细]
赞
踩
article
微软、阿里抢占开源一线，JavaScript、Python 备受热捧，GitHub 2020 数字洞察报告揭晓！...
作者|Allumos来源|源光闪烁开源软件已经成为人类数字社会的基石，是全人类共同努力的结晶，开源协作对人类数字文明的发展起到了巨大的推动作用。GitHub作为全球范围内最主要的..._github2020pythongithub2020p... [详细]
赞
踩
article
238.【2023年华为OD机试真题（C卷）】火星文计算（模拟-Java&Python&C++&JS实现）
【2023年华为OD机试真题（C卷）】火星文计算（模拟-Java&Python&C++&JS实现）已知火星人使用的运算符为#、$，其与地球人的等价公式如下：x#y=4*x+3*y+2x$y=2*x+y+31、其中x、y是无符号整数2、地球人... [详细]
赞
踩
article
2024华为OD机试真题指南宝典—持续更新（JAVA&Python&C++&JS）【彻底搞懂算法和数据结构—算法之翼】
2024华为OD机试真题指南宝典—持续更新（JAVA&Python&C++&JS）【彻底搞懂算法和数据结构—算法之翼】OD全称(OutsourcingDispacth)模式，目前华为和德科联合招聘的简称。目前华为社招大多数是OD招聘，17级... [详细]
赞
踩
article
207.【2023年华为OD机试真题（C卷）】小朋友来自多少小区（贪心算法实现-Java&Python&C++&JS实现）_小朋友来自多少个小区python
【2023年华为OD机试真题（C卷）】小朋友来自多少小区（贪心算法实现-Java&Python&C++&JS实现）幼儿园组织活动，老师布置了一个任务：每个小朋友去了解与自己同一个小区的小朋友还有几个。我们将这些数量汇总到数组garden中。... [详细]
赞
踩
article
253.【2023年华为OD机试真题（C卷）】田忌赛马（贪心算法-Java&Python&C++&JS实现）_田忌赛马 od
【2023年华为OD机试真题（C卷）】田忌赛马（贪心算法-Java&Python&C++&JS实现）给定两个只包含数字的数组a,b,调整数组a里面数字的顺序，使得尽可能多的a[i]>b[i]。数组a和b中的数字各不相同。输出所有可以达到最优... [详细]
赞
踩
article
254.【2023华为OD机试真题】-任务处理（贪心算法-Java&Python&C++&JS实现）
【2023华为OD机试真题】-任务处理（贪心算法-Java&Python&C++&JS实现）在某个项目中有多个任务（用tasks数组表示）需要您进行处理，其中tasks[i]=[si,ei]，你可以在si254.【2023华为OD机试真题】... [详细]
赞
踩
article
Python Web 开发中 Excel 转 PDF 文件_python excel to pdf
Pythonwebjavapdf_pythonexceltopdfpythonexceltopdfPythonWeb开发中Excel转PDF文件在Web应用程序或者项目的某些批处理程序中，将Excel转换为PDF文件的需求是常见的。对于Ex... [详细]
赞
踩

python之pandas索引、DataFrame数据选取及filter介绍_pandas filter

目录

1.数据筛选

1.1 单条件筛选

1.2 多条件筛选

1.3 索引筛选

1.3.1 切片操作

1.3.2 loc函数

1.3.3 iloc函数

1.3.4 ix函数

1.3.5 at函数

1.3.6 iat函数

2.filter

3. 其它

挑战杯 python+深度学习+opencv实现植物识别算法系统

电力负荷预测 | 基于GRU门控循环单元的深度学习电力负荷预测，含预测未来（Python）

挑战杯 python+opencv+机器学习车牌识别

挑战杯 python+opencv+深度学习实现二维码识别

python elasticsearch 分组统计_python bool must 多字段aggregations分组

【ES笔记02】ElasticSearch数据库之查询操作（match、must、must_not、should、_source、filter、range、exists、ids、term、terms）_es 查询

Python 代码托管到码云平台，原来这么简单_python 提交代码到码云详解

228.【2023年华为OD机试真题（C卷）】传递悄悄话（优先搜索（DFS）-Java&Python&C++&JS实现）_华为机试传递悄悄话

如何使用 Python 3 中的 Requests 和 Beautiful Soup 处理 Web 数据

Reactor响应式编程记录web访问日志 filter+AOP_eactiverequestcontextfilter implements webfilter

曲线生成 | 图解贝塞尔曲线生成原理(附ROS C++/Python/Matlab仿真)_贝塞尔曲线模拟

【python】python新年烟花代码【附源码】_如何用python做新年程序

【github action+python】完成定时任务并推送（学会自制）_glados自动签到

微软、阿里抢占开源一线，JavaScript、Python 备受热捧，GitHub 2020 数字洞察报告揭晓！...

238.【2023年华为OD机试真题（C卷）】火星文计算（模拟-Java&Python&C++&JS实现）

2024华为OD机试真题指南宝典—持续更新（JAVA&Python&C++&JS）【彻底搞懂算法和数据结构—算法之翼】

207.【2023年华为OD机试真题（C卷）】小朋友来自多少小区（贪心算法实现-Java&Python&C++&JS实现）_小朋友来自多少个小区python

253.【2023年华为OD机试真题（C卷）】田忌赛马（贪心算法-Java&Python&C++&JS实现）_田忌赛马 od

254.【2023华为OD机试真题】-任务处理（贪心算法-Java&Python&C++&JS实现）

Python Web 开发中 Excel 转 PDF 文件_python excel to pdf