赞
踩
目录
Python 数据分析是指使用 Python 编程语言进行数据挖掘和数据分析的过程。Python 语言因其易学、易用、灵活、强大的数据处理能力和良好的可视化效果而被广泛用于数据分析领域。
总之,通过 Python 数据分析,可以处理、分析和可视化各种数据,并将数据转化为可供决策的信息,帮助决策者做出更加明智的决策。
1.IPython——科学计算标准工具集的组成部分
2.NumPy(Numerical Python)—— Python 科学计算的基础包
3.SciPy——专门解决科学计算中各种标准问题域的模块的集合
SciPy 主要包含了 8 个模块,不同的子模块有不同的应用,如插值、积分、优化、图像处理和特殊函数等。
4.Pandas——数据分析核心库
5.Matplotlib——绘制数据图表的 Python 库
6.scikit-learn——数据挖掘和数据分析工具
7.Spyder——交互式 Python 语言开发环境
NumPy数值计算基础内容包括:(1)NumPy 数组对象 ndarray(2)NumPy 矩阵与通用函数(3)利用 NumPy 进行统计分析
NumPy 数组对象 ndarray是 NumPy 中的核心数据结构,是一个多维数组,可以用于存储和操作大量的数据。ndarray 对象具有许多有用的属性和方法,包括形状、轴、数据类型、元素访问、索引切片、数学运算、矩阵运算和广播等。
在深度学习中,我们通常使用 ndarray 对象来存储训练和测试数据集,构建神经网络、计算损失函数和优化模型等。ndarray 对象还可以与其他 Python 库集成,例如 Matplotlib、Pandas 等,方便数据可视化和分析。
本节(1)NumPy 数组对象 ndarray内容包括:1.创建数组对象。2.生成随机数。3.通过索引访问数组。4.变换数组的形态
数组属性:ndarray(数组)是存储单一数据类型的多维数组。
注:python中的列表是可以存储多种数据类型
属性 | 说明 |
ndim | 返回 int。表示数组的维数,例如(3,4)的维数为2 |
shape | 返回 tuple。表示数组的尺寸,对于 n 行 m 列的矩阵,形状为(n,m) |
size | 返回 int。表示数组的元素总数,等于数组形状的乘积。例如(3,4)的size为12 |
dtype | 返回 data-type。描述数组中元素的类型 |
itemsize | 返回 int。表示数组的每个元素的大小(以字节为单位)。 |
数组创建:numpy.array(object, dtype=None, copy=True, order='K',subok=False, ndmin=0)
参数名称 | 说明 |
object | 接收array。表示想要创建的数组。无默认。 |
dtype | 接收data-type。表示数组所需的数据类型。如果未给定,则选择保存对象所需的最小类型。默认为None。 |
ndmin | 接收int。指定生成数组应该具有的最小维数。默认为None。 |
创建数组并查看数组属性
注:如下表格为代码段,“In[1]:”为python代码输入,“Out[1]:”为代码输出结果。后面雷同。
In[1]: | import numpy as np #导入NumPy库arr1 = np.array([1, 2, 3, 4]) #创建一维数组 print('创建的数组为:',arr1) |
Out[1]: | 创建的数组为: [1 2 3 4] |
In[2]: | arr2 = np.array([[1, 2, 3, 4],[4, 5, 6, 7], [7, 8, 9, 10]]) #创建二维数组 print('创建的数组为:\n',arr2) |
Out[2]: | 创建的数组为: [[ 1 2 3 4] [ 4 5 6 7] [ 7 8 9 10]] |
In[3]: | print('数组维度为:',arr2.shape) #查看数组结构 |
Out[3]: | 数组维度为: (3, 4) |
In[4]: | print('数组维度为:',arr2.dtype) #查看数组类型 |
Out[4]: | 数组维度为: int32 |
In[5]: | print('数组元素个数为:',arr2.size) #查看数组元素个数 |
Out[5]: | 数组元素个数为: 12 |
In[6]: | print('数组每个元素大小为:',arr2.itemsize) #查看数组每个元素大小 |
Out[6]: | 数组每个元素大小为: 4 |
重新设置数组的 shape 属性
In[7]: | arr2.reshape = 4,3 #重新设置 shape print('重新设置 shape 后的 arr2 为:',arr2) |
Out[7]: | 重新设置shape维度后的arr2为: [[ 1 2 3] [ 4 4 5] [ 6 7 7] [ 8 9 10]] |
使用 arange 函数创建数组
In[8]: | print('使用 arange 函数创建的数组为:\n',np.arange(0,1,0.1)) |
Out[8]: | 使用arange函数创建的数组为: [ 0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9] |
使用 linspace 函数创建数组(等差数列)
In[9]: | print('使用 linspace 函数创建的数组为:',np.linspace(0, 1, 12))。0到1取12个数 |
Out[9]: | 使用linspace函数创建的数组为: [ 0. 0.09090909 … 1. ] |
使用 logspace 函数创建等比数列
In[10]: | print('使用logspace函数创建的数组为:',np.logspace(0, 2, 20)) |
Out[10]: | 使用logspace函数创建的数组为: [ 1. 1.27427499 1.62377674 ..., 61.58482111 78.47599704 100. ] |
使用zeros函数创建全0的数组
In[11]: | print('使用zeros函数创建的数组为:',np.zeros((2,3)))。用(2,3)元组来创建二维的数组。 |
Out[11]: | 使用zeros函数创建的数组为: [[ 0. 0. 0.] [ 0. 0. 0.]] |
使用eye函数创建对角线为1其它元素为0的数组
In[12]: | print('使用eye函数创建的数组为:',np.eye(3)) |
Out[12]: | 使用eye函数创建的数组为: [[ 1. 0. 0.] [ 0. 1. 0.] [ 0. 0. 1.]] |
使用diag函数创建对角线元素为指定内容的数组
In[13]: | print('使用diag函数创建的数组为:',np.diag([1,2,3,4]) |
Out[13]: | 使用diag函数创建的数组为: [[1 0 0 0] [0 2 0 0] [0 0 3 0] [0 0 0 4]] |
使用ones函数创建全1的数组
In[14]: | print('使用ones函数创建的数组为:',np.ones((5,3))) |
Out[14]: | 使用ones函数创建的数组为: [[ 1. 1. 1.] [ 1. 1. 1.] [ 1. 1. 1.] [ 1. 1. 1.] [ 1. 1. 1.]] |
数组数据类型,NumPy基本数据类型与其取值范围(只展示一部分)
类型 | 描述 |
bool | 用一位存储的布尔类型(值为TRUE或FALSE) |
inti | 由所在平台决定其精度的整数(一般为int32或int64) |
int8 | 整数,范围为−128至127 |
int16 | 整数,范围为−32768至32767 |
int32 | |
…… | …… |
数组数据类型转换
In[15]: | print('转换结果为:',np.float64(42)) #整型转换为浮点型 |
Out[15]: | 转换结果为: 42.0 |
In[16]: | print('转换结果为:',np.int8(42.0)) #浮点型转换为整型 |
Out[16]: | 转换结果为: 42 |
In[17]: | print('转换结果为:',np.bool(42)) #整型转换为布尔型 |
Out[17]: | 转换结果为: True |
In[18]: | print('转换结果为:',np.bool(0)) #整型转换为布尔型 |
Out[18]: | 转换结果为: False |
In[19]: | print('转换结果为:',np.float(True)) #布尔型转换为浮点型 |
Out[19]: | 转换结果为: 1.0 |
In[20]: | print('转换结果为:',np.float(False)) #布尔型转换为浮点型 |
Out[20]: | 转换结果为: 0.0 |
在使用array函数创建数组时,数组的数据类型默认是浮点型。自定义数组数据,则可以预先指定数据类型
In[24]: | itemz = np.array([("tomatoes", 42, 4.14), ("cabbages", 13, 1.72)], dtype=df) print('自定义数据为:',itemz) |
Out[24]: | 自定义数据为: [('tomatoes', 42, 4.14) ('cabbages', 13, 1.72)] |
无约束条件下生成随机数
In[25]: | print('生成的随机数组为:',np.random.random(100))。0到1之间的随机数 |
Out[25]: | 生成的随机数组为: [ 0.15343184 0.51581585 0.07228451 ... 0.24418316 0.92510545 0.57507965] |
生成服从均匀分布的随机数
In[26]: | print('生成的随机数组为:\n',np.random.rand(10,5)) |
Out[26]: | 生成的随机数组为: [[ 0.39830491 0.94011394 0.59974923 0.44453894 0.65451838] ... [ 0.1468544 0.82972989 0.58011115 0.45157667 0.32422895]] |
生成服从正态分布的随机数
注:(2,3, 2)是三维数组,2个三行2列数组。使用多维数组,要用元组的形式传入
In[27]: | print('生成的随机数组为:\n',np.random.randn(10,5)) |
Out[27]: | 生成的随机数组为: [[-0.60571968 0.39034908 -1.63315513 0.02783885 -1.84139301] ..., [-0.27500487 1.41711262 0.6635967 0.35486644 -0.26700703]] |
生成给定上下范围的随机数,如创建一个最小值不低于 2、最大值不高于 10 的 2 行 5 列数组
In[28]: | print('生成的随机数组为:',np.random.randint(2,10,size = [2,5])) |
Out[28]: | 生成的随机数组为: [[6 6 6 6 8] [9 6 6 8 4]] |
random模块常用随机数生成函数
函数 | 说明 |
seed | 确定随机数生成器的种子。 |
permutation | 返回一个序列的随机排列或返回一个随机排列的范围。 |
shuffle | 对一个序列进行随机排序。 |
binomial | 产生二项分布的随机数。 |
normal | 产生正态(高斯)分布的随机数。 |
beta | 产生beta分布的随机数。 |
chisquare | 产生卡方分布的随机数。 |
gamma | 产生gamma分布的随机数。 |
uniform | 产生在[0,1)中均匀分布的随机数。 |
一维数组的索引
注:[]切片,左开右闭
In[29]: | arr = np.arange(10) print('索引结果为:',arr[5]) #用整数作为下标可以获取数组中的某个元素 |
Out[29]: | 索引结果为: 5 |
In[30]: | print('索引结果为:',arr[3:5]) #用范围作为下标获取数组的一个切片,包括arr[3]不包括arr[5] |
Out[30]: | 索引结果为: [4 5] |
In[31]: | print('索引结果为:',arr[:5]) #省略开始下标,表示从arr[0]开始 |
Out[31]: | 索引结果为: [0 1 2 3 4] |
In[32]: | print('索引结果为:',arr[-1]) #下标可以使用负数,-1表示从数组后往前数的第一个元素 |
Out[32]: | 索引结果为: 9 |
In[33]: | arr[2:4] = 100,101 print('索引结果为:',arr) #下标还可以用来修改元素的值 |
Out[33]: | 索引结果为: [ 0 1 100 101 4 5 6 7 8 9] |
In[34]: | #范围中的第三个参数表示步长,2表示隔一个元素取一个元素。从第一个元素到最后一个元素 print('索引结果为:',arr[1:-1:2]) |
Out[34]: | 索引结果为: [ 1 101 5 7] |
In[35]: | print('索引结果为:',arr[5:1:-2]) #步长为负数时,开始下标必须大于结束下标 |
Out[35]: | 索引结果为: [ 5 101] |
多维数组的索引
In[36]: | arr = np.array([[1, 2, 3, 4, 5],[4, 5, 6, 7, 8], [7, 8, 9, 10, 11]]) print('创建的二维数组为:',arr) |
Out[36]: | 创建的二维数组为: [[ 1 2 3 4 5] [ 4 5 6 7 8] [ 7 8 9 10 11]] |
In[37]: | print('索引结果为:',arr[0,3:5]) #索引第0行中第3和4列的元素 |
Out[37]: | 索引结果为: [4 5] |
In[38]: | #索引第2和3行中第3~5列的元素 print('索引结果为:',arr[1:,2:]) |
Out[38]: | 索引结果为: [[ 6 7 8] [ 9 10 11]] |
In[39]: | print('索引结果为:',arr[:,2]) #索引第2列的元素 |
Out[39]: | 索引结果为: [3 6 9] |
多维数组的索引(使用整数和布尔值索引访问数据)
In[40]: | #从两个序列的对应位置取出两个整数来组成下标:arr[0,1], arr[1,2], arr[2,3] print('索引结果为:',arr[[(0,1,2),(1,2,3)]]) |
Out[40]: | 索引结果为: [ 2 6 10] |
In[41]: | print('索引结果为:',arr[1:,(0,2,3)]) #索引第2、3行中第0、2、3列的元素 |
Out[41]: | 索引结果为: [[ 4 6 7] [ 7 9 10]] |
In[42]: | mask = np.array([1,0,1],dtype = np.bool)。取值第0个和第3个元素(为1的值) #mask是一个布尔数组,它索引第1、3行中第2列的元素 print('索引结果为:',arr[mask,2]) |
Out[42]: | 索引结果为: [3 9] |
改变数组形状
In[43]: | arr = np.arange(12) #创建一维数组 print('创建的一维数组为:',arr) |
Out[43]: | 创建的一维数组为: [ 0 1 2 3 4 5 6 7 8 9 10 11] |
In[44]: | print('新的一维数组为:',arr.reshape(3,4)) #设置数组的形状 |
Out[44]: | 新的一维数组为: [[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11]] |
In[45]: | print('数组维度为:',arr.reshape(3,4).ndim) #查看数组维度 |
Out[45]: | 数组维度为: 2 |
使用ravel函数展平数组,如二维数组转换为一维数组
In[46]: | arr = np.arange(12).reshape(3,4) print('创建的二维数组为:',arr) |
Out[46]: | 创建的二维数组为: [[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11]] |
In[47]: | print('数组展平后为:',arr.ravel()) |
Out[47]: | 数组展平后为: [ 0 1 2 3 4 5 6 7 8 9 10 11] |
使用flatten函数展平数组
In[48]: | print('数组展平为:',arr.flatten()) #横向展平 |
Out[48]: | 数组展平为: [ 0 1 2 3 4 5 6 7 8 9 10 11] |
In[49]: | print('数组展平为:',arr.flatten('F')) #纵向展平 |
Out[49]: | 数组展平为: [ 0 4 8 1 5 9 2 6 10 3 7 11] |
组合数组
注:h横向,v纵向
切割数组
创建与组合矩阵
矩阵的运算
属性 | 说明 |
T | 返回自身的转置 |
H | 返回自身的共轭转置 |
I | 返回自身的逆矩阵 |
A | 返回自身数据的2维数组的一个视图 |
全称通用函数(universal function),是一种能够对数组中所有元素进行操作的函数。
ufunc函数的广播机制
广播(broadcasting)是指不同形状的数组之间执行算术运算的方式。需要遵循4个原则。
一维数组的广播机制
二维数组的广播机制
NumPy文件读写主要有二进制的文件读写和文件列表形式的数据读写两种形式
读取文本格式的数据
直接排序
间接排序
去重与重复数据
当axis=0时,表示沿着纵轴计算。当axis=1时,表示沿着横轴计算。默认时计算一个总值。
函数 | 说明 |
sum | 计算数组的和 |
mean | 计算数组均值 |
std | 计算数组标准差 |
var | 计算数组方差 |
min | 计算数组最小值 |
max | 计算数组最大值 |
argmin | 返回数组最小元素的索引 |
argmax | 返回数组最小元素的索引 |
cumsum | 计算所有元素的累计和 |
cumprod | 计算所有元素的累计积 |
读取iris数据集中的花萼长度数据(已保存为csv格式),并对其进行排序、去重,并求出和、累积和、均值、标准差、方差、最小值、最大值。数据集邮箱咨询:archie_it@foxmail.com。
- '''
- 读取iris数据集中的花萼长度数据(已保存为csv格式),并对其进行排序、去重,并求出和、累积和、均值、标准差、方差、最小值、最大值
- '''
- import numpy as np
- data = np.loadtxt('E:\Python_project\iris_sepal_length.csv')
- data.sort() # 排序
- data = np.unique(data) # 去重
- np.sum(data) # 求和
- np.cumsum(data) # 累积和
- np.mean(data) # 均值
- np.std(data) # 标准差
- np.var(data) # 方差
- np.min(data) # 最小值
- np.max(data) # 最大值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。