赞
踩
本文主要介绍了在Python中,如何利用Pandas去读取数据、查询指定条件的数据、以及数据的详细信息.
网上随便找的数据集
import pandas as pd
#读取excel文件
data=pd.read_excel('C:/Users/abc/Desktop/users_info.xlsx')
数据量(行)、数据指标(列)、数据维度、尺寸
#查看数据尺寸
print(data.shape)
#查看数据数量
print(data.size)
print(data.head(4))
print(data.head())
print(data.tail(4))
如下图:有些字段的数据被折叠起来,用省略号表示
#设置界面显示的最大行列数据量
#若设置的数大于数据表的列数,则可以完整地展示所有列的内容
pd.options.display.max_columns= 40
data.head()
结果:
可以看到之前被折叠的数据已经全部展示出来了
#设置界面显示的最大列数据量
#若设置的数大于数据表的列数,则可以完整地展示所有列的内容
pd.options.display.max_columns= None
data.head()
如图:数据表的行数较多时,直接展示的话,部分数据会被折叠起来,用省略号表示
#设置界面显示的最大行数据量
#若设置的数大于数据表的列数,则可以完整地展示所有列的内容
pd.options.display.max_rows= None
data
如图:字段名为"ORGANIZE_NAME",字段值为“统计班”的数据共有27条,37是指数据表共有37个字段
#查看指定条件的数据表
data[data['ORGANIZE_NAME']=='统计班'].shape
如图:字段名为"ORGANIZE_NAME",字段值为“统计班”,并且字段”address“为广州的数据共有22条
#叠加条件
data[data['ORGANIZE_NAME']=='统计班'][data['address']=='广州'].shape
#查看指定列
data["ORGANIZE_NAME"].head()
#查看多列数据
data[["ORGANIZE_NAME","address"]].head()
【20:30】: 查询的数据范围包含左区间,不包含右区间
#查看指定行
data[20:25]
#查看指定的行和列
data.loc[20,"ORGANIZE_NAME"]
#查看指定的行和列
data.loc[20:30,"ORGANIZE_NAME"]
#查看指定的行和列
data.loc[20:30,["ORGANIZE_NAME","ACCOUNT"]]
#查看指定行和列
data.iloc[20:31,:5]
#查看指定行和列
data.iat[10,0]
等价于:
#查看指定行和列
data.loc[10,"USER_ID"]
#查看数据的详细信息和数据指标的类型
data.dtypes
比如下图:数据类型为 int64 的有2个字段
#统计不同类型数据指标的数量
from collections import Counter
Counter(data.dtypes.values)
包括:指标类型统计、数据大小、内存占用信息
#查看数据的详细信息、指标类型统计、数据大小、内存占用信息
data.info()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。