赞
踩
No.1 Pandas 是 Python 语言的一个扩展程序库,用于数据分析,是一个强大的分析结构化数据的工具集,基础是Numpy库,可以去参考前面所讲的课。(提供高性能的矩阵运算)
No.2 应用 :Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据,对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
No.3 数据结构:Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)
● Series:是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。可以简单看一下下列代码:
● DateFrame: 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
No.4 特点:Pandas 可以让你轻松地处理各种数据结构,尤其是表格型数据,如 SQL 数据库或 Excel 表格。主要特点为:数据结构、数据加载与保存、数据清洗与转换、数据分析与统计、数据可视化
不多说,直接win+R
pip install pandas
因为我使用的是jupyter notebook(pycharm终端直接输入jupyter notebook+回车),因为jupyter更适合对数据类型的处理,第一次打开需要设定一下系统环境,当然,pycharm也可以敲代码,但是社区版的用不了jupyter。
- #导入pandas包
- import pandas as pd
- #设定页面运行结果最大行数
- pd.options.display.max_rows=10
- #显示版本号
- print(pd.__version__)
Series:一维数组,与Numpy中的一维array类似。它是一种类似于一维数组的对象,是由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series 对象。用值列表生成 Series 时,Pandas 默认自动生成整数索引 。
- import pandas as pd
- date=pd.Series([45,6,8,6,12,55,6])
- #也可以这么写date=pd.Series(list('abcde'))
- print(date)
其打印结果如图所示:
即生成一个一维数组,前一列为索引,后一列为值
date1=pd.Series([45,6,8,6,12],index=['one','two','three','four','five'])
- #导入一个字典,然后生成一个一维数组,
- population=pd.Series({'beijing':10,'shanghai':10,'guangzhou':10})
- #通过索引取这个一维数组的值,如果没有这个索引则返回Non
- pd.Series(population,index=['shanghai','a'])
● 将一个标量与index对象一起传入创建
pd.Series(10,list("abcd"))
DataFrame 是 Pandas 中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame 即有行索引也有列索引,可以被看做是由 Series 组成的字典。将两个series对象作为dict的value传入,就可以创建一个DataFrame对象。
- #定义两个字典用来存放行数据
- popular={'hangzhou':1000,'shanghai':1100,'beijing':1200}
- area={'hangzhou':800,'shanghai':900,'beijing':999}
- #将两个字典导入Series,将其改编成一维数组类型
- a=pd.Series(popular)
- b=pd.Series(area)
- #将两个一维数组合并起来,并命名字典中值所对应的列名,列名为popular和area
- df=pd.DataFrame({"popular":a,"area":b})
其打印结果为一个列表:
以 上部分代码结果 df 为例
df.index:即为这个二维数组的索引名称
df.values: 即返回这个列表所对应值的二维数组:
df.columns:即打印列的信息:
观察以下代码,稍后再慢慢分析
- popular={'hangzhou':1000,'shanghai':1100,'beijing':1200}
- area={'hangzhou':800,'shanghai':900,'beijing':999}
-
- pd.DataFrame([popular,area],index=['population','area'])
打印结果为:
这段代码和上面写的基本一致,只不过改了行和列的位置,即导入两个字典,字典键是一样的,如果不一样会增加一列,对应没有的值会返回NaN,然后再使用DateFrame将两个字典写入列表,DateFrame括号内后一部分index行,前一部分为列,将两个字典导入列表写入列表,再以index来命名行的名称
columns顾名思义就是列的意思,在DateFrame中当做属性指定列名来使用
- popular={'hangzhou':1000,'shanghai':1100,'beijing':1200}
- population=pd.Series(popular)
- pd.DataFrame(population,columns=['nihao'])
先看代码
- import numpy as np
- pd.DataFrame(np.random.randint(1,100,(4,5)),index=list('abcd'),columns=list('efghi'))
其生成如图所示的4行5列的列表:
解析代码:
np.random.randint(1,100,(4,5))是随机生成1-100的整数,组成4行5列,
index=list('abcd'),columns=list('efghi') 他俩的作用一个是索引名称一个是列名,用列表中的值输出
最后将这两部分放进DateFrame中生成一个带索引名和列名的列表
4.5 取列的方式
● df.e :获取列表df中索引列为e的列数据
● df['e'] :获取列表df中索引列为e的列数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。