赞
踩
Pandas模块是基于Numpy模块的一个开源python模块,它提供了大量标准数据模型和高效操作大型数据集所需的工作,广泛应用于数据快速分析、数据清洗和准备等工作,它的名字来源与“panel data"(面板数据)。在一定程度上,可以把pandas模块看作python版的excel。
与numpy相比,pandas模块更擅长处理二维数据,其主要有Series 和 DataFrame两种数据结果。
1. Series常用属性
Series类似于通过numpy模块创建的一维数组,不同的是Series对象不仅包含数值,还包含一组索引,我们可以通过索引来访问数组中的数据。
- import pandas as pd
- import numpy as np
-
- # 创建一个Series(序列)对象
- series1 = pd.Series([2.8,3.01,8.99,8.59,5.18],index = ['a','b','c','d','e'] ) # 更改序列索引
- print("series1:",series1)
-
- # 创建一个字典
- series2 = pd.Series({'中国':'北京','美国':'纽约','英国':'伦敦','日本':'东京'})
- series2.drop('美国', inplace=True) # 删除数据
- print("series2:",series2)
-
- print("series2.size:",series2.size)
-
- print("series2[0:2]:",series2[0:2])
运行结果:
2. DataFrame常用属性
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看作由Series组成的字典(共同用一个索引)。
DataFrame的创建与索引
- import pandas as pd
-
- # 数据的创建
- data = {
- 'name':['张三','李四','王五','孙二'],
- 'sex':['male','female','female','male'],
- 'year':[2000,2003,1998,2002],
- 'city':['北京','上海','广州','深圳']
- }
-
- # 数据的读取
- df = pd.DataFrame(data)
- print(df)
- print()
-
- # 数据的索引
- df1 = pd.DataFrame(data,columns = ['name','year','city'])
- print(df1)
- print()
-
- # 如果传入的数据找不到,就会产生NaN值(空缺值)
- df2 = pd.DataFrame(data,columns = ['name','year','city','adress'],
- index = ['a','b','c','d']) # 创建时指定列名
- print(df2)
运行结果:
- import pandas as pd
- import numpy as np
-
- # 创建方法一,使用列表进行创建
- list1 = [['张三',23,'男'],['李四',25,'女'],['王二',15,'男']]
- df1 = pd.DataFrame(list1,columns=['姓名','年龄','性别']) # 返回列标签
- print(df1)
-
- # 创建方法二,使用字典进行创建
- dict = {'姓名':['张三','李四','王二'],'年龄':[23,25,15],'性别':['男','女','男']}
- df2 = pd.DataFrame(dict)
- print(df2)
-
- # 创建方法三,使用元组进行创建
- array1 = np.array(list1) # 将列表转换为元组
- df3 = pd.DataFrame(array1,columns=['姓名','年龄','性别'],index = ['a','b','c'])
- print(df3)
运行结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。