赞
踩
Pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。
它提供了大量高级的数据结构和对数据处理的方法。
1.series:一维数组,以下标为索引访问;
2.Time-Series:时间序列,本质上是一个一维数组,以时间为索引访问;
3.DataFrame:二维表格型数据结构;
4.Panel:三维数组,可以装载多个DataFrame的容器。
Series :
是一个一维数组对象 ,类似于 NumPy 的一维 array。它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组。
DataFrame :
类似于Numpy中利用一维数组构造的二维甚至更高维的数组。是加将多个Series构造为二维数据结构的容器,是Pandas组织复合数据的主流方式。
- #(1) 通过pandas的Series构造一维数组s,包含元素分别为:河北省,保定市,22135。
- s=Series(["河北省","保定市",22135])
- print(s)
- print(s.ndim)#s输出s的维度
- print(s.shape)#) 输出s的形状。
- print(s.values)#输出s的所有值
- print("s的索引为:",s.index)#输出s的索引
- from pandas import DataFrame
- #(通过字典) 构造如下表所示的二维数组df。
- df=DataFrame({"Name":["python","Java","C"],"score":[95,85,95],"year":[2018,2017,2016]})
- print(df)
- #查看各列数组类型。
- print(df.dtypes)
- #查看columns值。
- print(df.columns)
- # 用DataFrame构造二维数组df1,数据为6行3列 (6*3) 的随机数 以日期 (从20180725开始,往后6天) 为索引, 列名(columns)为:A, B, C。
- dates=pd.date_range("20180725",periods=6)
- df1=DataFrame(np.random.randn(6,3),index=dates,columns=["A","B","C"])
- print(df1)
- #按C列的值进行排序。
- print(df1.sort_values(by='C'))
- #输出:计数,均值,标准差,最小值,25%,50%,75%分为数值,最大值。
- print(df1.describe())
- #增加一列D,数据为10, 20, 30, ..., 60。
- df1['D']=[10,20,30,40,50,60]
- print(df1)
- #筛选出A列大于0的数据。
- print(df1[df1['A']>0])
备注:课程学习过程中知识整理,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。