赞
踩
Numpy 是一个功能强大的 Python 库,主要由于对多维数组执行计算。Numpy 这个词来源于两个单词 – Numerical 和 Python。Numpy 提过了大量的库函数和操作,可以帮助程序员轻松地进行数值计算。在数据分析和机器学习领域被广泛使用。他有以下几个特点:
pip install numpy
比如我们想要多一个Numpy数组和Python列表中的每一个元素进行求平方。那么代码如下:
# Python列表的方式
import time
t_start = time.time()
a = [x**2 for x in range(100000)]
t_end = time.time()
print(f'list 花费{t_end-t_start}s')
list 花费0.02654242515563965s
# Numpy
import numpy as np
t3 = time.time()
b = np.arange(10000)**2
t4 = time.time()
print(f'Numpy 花费{t4-t3}s')
Numpy 花费0.0008003711700439453s
Numpy 中的数组的使用跟 Python 中的列表非常类似。他们之间的区别如下:
Numpy 经常和数组打交道,因此首先第一步是要学会创建数组。在 Numpy 中的数组的数据类型叫 ndarray。以下是 4 种创建的方式:
import numpy as np
a1 = np.array([1, 2, 3, 4])
print(a1)
print(type(a1))
[1 2 3 4]
<class 'numpy.ndarray'>
import numpy as np
a2 = np.arange(2, 21, 2)
print(a2)
[ 2 4 6 8 10 12 14 16 18 20]
a1 = np.random.random((2, 2)) # 生成2行2列的随机数的数组,其中元素的值是0-1之间的随机数
a2 = np.random.randint(0, 10, size=(3, 3)) # 元素从0~10之间随机的3行3列的数组
print(a1)
print(a2)
[[0.49986588 0.1486504 ]
[0.08750787 0.02891811]]
[[0 1 9]
[4 9 3]
[1 5 6]]
import numpy as np
a1 = np.zeros((2, 2)) # 生成一个所有元素都是0的2行2列的数据
a2 = np.ones((3, 2)) # 生成一个所有元素都是1的3行2列的数组
a3 = np.full((2, 2), 8) # 生成一个所有元素都是8的2行2列的数组
a4 = np.eye(3) # 生成一个斜方形上元素为1,其他元素都为0的3x3的矩阵
print(a1)
print(a2)
print(a3)
print(a4)
[[0. 0.]
[0. 0.]]
[[1. 1.]
[1. 1.]
[1. 1.]]
[[8 8]
[8 8]]
[[1. 0. 0.]
[0. 1. 0.]
[0. 0. 1.]]
数据类型 | 描述 | 唯一标识符 |
---|---|---|
bool | 用一个字节存储的布尔类型(True或False) | ‘b’ |
int8 | 一个字节大小,-128至127 | ‘i’ |
int16 | 整数,16位整数(-32768~32767) | ‘i2’ |
int32 | 整数,32位整数(-2147483648~2147483647) | ‘i4’ |
int64 | 整数,64位整数(-9223372036854775808~9223372036854775807) | ‘i8’ |
uint8 | 无符号整数,0至255 | ‘u’ |
uint16 | 无符号整数,0至65535 | ‘u2’ |
uint32 | 无符号整数,0至2*32-1 | ‘u4’ |
uint64 | 无符号整数,0至2*64-1 | ‘u8’ |
float16 | 半精度浮点数:16位,正负号1位,指数5位,精度10位 | ‘f2’ |
float32 | 半精度浮点数:32位,正负号1位,指数8位,精度23位 | ‘f4’ |
float64 | 半精度浮点数:64位,正负号1位,指数11位,精度52位 | ‘f8’ |
complex64 | 复数,分别用两个32位浮点数表示实部与虚部 | ‘c8’ |
complex128 | 复数,分别用两个64位浮点数表示实部与虚部 | ‘c16’ |
object_ | python对象 | ‘o’ |
string_ | 字符串 | ‘S’ |
unicode_ | unicode类型 | ‘U’ |
# 可以在创建ndarray对象时指定元素数据类型
import numpy as np
a1 = np.array([1,2,3,4,5],dtype=np.int8)
print(a1.dtype)
# 也可以中途修改 dtype
a2 = np.array([1, 2, 3, 4])
print(f'默认元素类型是:{a2.dtype}')
a2 = a2.astype(np.float16) # astype不会修改数组本身,而是将修改后的结果返回
print(a2.dtype)
int8
默认元素类型是:int64
float16
import numpy as np
a1 = np.array([[1,2,3],[4,5,6]])
print(a1.size) # 打印的是6,因为总共有6个元素
6
import numpy as np
a1 = np.array([1,2,3])
print(a1.ndim) # 维度为1
a2 = np.array([[1,2,3],[4,5,6]])
print(a2.ndim) # 维度为2
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9]]])
print(a3.ndim) # 维度为3
1
2
3
import numpy as np
a1 = np.array([1,2,3])
print(a1.shape) # 输出(3,) 意思是一维数组,有3个数据
a2 = np.array([[1,2,3],[4,5,6]])
print(a2.shape) # 输出 (2,3) 意思是二维数组,2行3列
(3,)
(2, 3)
另外,还可以通过 ndarray.reshape 方法来重新修改数组的维度。但注意,reshape并不会修改原来数组本身,而是会将修改后的结果返回。 如果想要直接修改数组本身,那么可以使用 resize 代替 reshape
import numpy as np
a1 = np.arange(12) # 生成一个有12个数据的一维数组
print(a1)
a2 = a1.reshape((3,4)) # 变成了一个2维数组,是3行4列
print(a2)
# 特殊的将多维数组转换为一维数组的方法
# 方法1:a3 = a2.reshape((12,))
# 方法2
a3 = a2.flatten()
print(a3)
[ 0 1 2 3 4 5 6 7 8 9 10 11]
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[ 0 1 2 3 4 5 6 7 8 9 10 11]
a1 = np.array([1,2,3],dtype=np.int32)
print(a1.itemsize) # 打印4,因为每个字节是8位,32位/8=4个字节
4
数组的创建与元素类型
数组对象的属性
切片结果属于对原数据的部分数据的浅拷贝
import numpy as np
# 1. 如果一维数组
a1 = np.arange(0,29)
print(a1[1]) # 获取下标为1的元素
# 2. 如果二维数组
a1 = np.arange(0,24).reshape((4,6))
print(a1[1]) # 获取下标为1的行数据
1
[ 6 7 8 9 10 11]
# 1. 获取连续的几行的数据
a1 = np.arange(0,24).reshape((4,6))
print(a1[0:2]) # 获取0行到1行的数据
# 2. 获取不连续的几行的数据
print(a1[[0,2,3]])
# 3. 使用步长
print(a1[::2])
# 4. 也可以使用负数进行索引
print(a1[[-1,-2]])
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]]
[[ 0 1 2 3 4 5]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
[[ 0 1 2 3 4 5]
[12 13 14 15 16 17]]
[[18 19 20 21 22 23]
[12 13 14 15 16 17]]
# 也是通过中括号来索引和切片,在中括号中使用逗号进行分割,逗号前面的是行,
# 逗号后面的是列,如果多维数组中只有一个值,那么这个值就是行
a2 = np.random.randint(0,10,size=(4,6))
# 1.获取连续行、连续列的数据
print(a2[0:2,2:4])
# 等价于 print(a2[[0,1],[2,3]])
# 2.获取不连续行、不连续列的数据
print(a2[[0,1],[2,3]])
# 3.获取某行(某列)
print(a2[1,:])
print(a2[:,2]) # 结果为1维度的数组
[[2 3]
[6 9]]
[2 9]
[9 1 6 9 4 7]
[2 6 9 3]
布尔运算也是矢量
a1 = np.arange(0,24).reshape((4, 6))
print(a1<10) # 会返回一个新的数组,这个数组中的值全部都是bool类型
a1[(5<a1)&(a1<10)] # 会把大小小于10的元素提取出来
[[ True True True True True True]
[ True True True True False False]
[False False False False False False]
[False False False False False False]]
array([6, 7, 8, 9])
a1 = np.arange(0, 24).reshape((4,6))
a1[3] = 0 # 将第四行的所有值都替换成0
print(a1)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[ 0 0 0 0 0 0]]
a1 = np.arange(0,24).reshape((4,6))
a1[a1<5] = 0 # 将小于5的所有值都替换成0
print(a1)
[[ 0 0 0 0 0 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
# where函数
a1 = np.arange(0,24).reshape((4,6))
# 获取满足条件元素的行索引与列索引数组
a2 = np.where(a1<10)
print(a2)
# 把a1中所有小于10的数全部变成1,其余的变成0
a2 = np.where(a1<10, 1, 0)
print(a2)
(array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1], dtype=int64), array([0, 1, 2, 3, 4, 5, 0, 1, 2, 3], dtype=int64))
[[1 1 1 1 1 1]
[1 1 1 1 0 0]
[0 0 0 0 0 0]
[0 0 0 0 0 0]]
数组的索引与切片操作
布尔索引与条件过滤
值的替换
如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符或其中一方的长度为1,则认为他们是广播兼容的。广播会在缺失和(或)长度为1的维度上进行
shape为(3,8,2)的数组能和(8,3)的数组进行运算吗?
分析:不能,因为按照广播原则,从后面往前面数,(3,8,2)和(8,3)中的 2 和 3 不相等,所以不能进行运算
shape为(3,8,2)的数组能和(8,1)的数组进行运算吗?
分析:能,因为按照广播原则,从后面往前面数,(3,8,2)和(8,1)中的 2 和 1 虽然不相等,但是因为有一方的长度为 1,所以能参与运算,所以能参与运算
shape为(3,1,8)的数组能和(8,1)的数组进行运算吗?
分析:能,因为按照广播原则,从谋面往前面数,(3,1,8)和(8,1)中的 8 和 1 虽然不相等且 1 和 8 不相等,但是因为这两项中有一方的长度为 1 ,所以能参与运算
在Python列表中,想要对列表中所有的元素都加一个数,要么采用 map 函数,要么循环遍历整个列表进行操作。但是 numpy 中的数组可以直接在数组上进行操作
import numpy as np
a1 = np.random.random((3,4))
print(a1)
# 如果想要在a1数组上所有元素都乘以10,那么可以通过以下来的实现
a2 = a1*10
print(a2)
# 也可以使用round让所有元素只保留2位小数
a3 = a2.round(2)
print(a3)
[[0.45837412 0.77030571 0.92012895 0.65235262]
[0.58623037 0.36705373 0.99718742 0.26862229]
[0.73230645 0.20494406 0.95031449 0.60970811]]
[[4.58374119 7.70305709 9.2012895 6.52352618]
[5.86230374 3.67053725 9.97187419 2.68622292]
[7.32306454 2.04944061 9.50314489 6.09708111]]
[[4.58 7.7 9.2 6.52]
[5.86 3.67 9.97 2.69]
[7.32 2.05 9.5 6.1 ]]
a1 = np.arange(0,24).reshape((3,8))
a2 = np.random.randint(1,10,size=(3,8))
print(a1)
print(a2)
# 相加
a3 = a1 + a2
print(a3)
# 相减
a3 = a1 - a2
print(a3)
# 相乘(对应位置元素相乘)
a3 = a1 * a2
print(a3)
[[ 0 1 2 3 4 5 6 7]
[ 8 9 10 11 12 13 14 15]
[16 17 18 19 20 21 22 23]]
[[2 5 4 7 5 9 7 2]
[3 3 1 8 2 6 5 8]
[6 3 9 7 3 2 4 2]]
[[ 2 6 6 10 9 14 13 9]
[11 12 11 19 14 19 19 23]
[22 20 27 26 23 23 26 25]]
[[-2 -4 -2 -4 -1 -4 -1 5]
[ 5 6 9 3 10 7 9 7]
[10 14 9 12 17 19 18 21]]
[[ 0 5 8 21 20 45 42 14]
[ 24 27 10 88 24 78 70 120]
[ 96 51 162 133 60 42 88 46]]
a1 = np.random.randint(10,20,size=(3,8)) # 3行8列
a2 = np.random.randint(1,10,size=(3,1)) # 3行1列
a3 = a1 - a2 # 行数相同,且a2只有1列,能互相运算
print(a1)
print(a2)
print(a3)
[[11 13 18 19 17 17 16 16]
[11 15 11 14 13 18 14 17]
[12 12 18 13 19 16 11 16]]
[[1]
[6]
[6]]
[[10 12 17 18 16 16 15 15]
[ 5 9 5 8 7 12 8 11]
[ 6 6 12 7 13 10 5 10]]
a1 = np.random.randint(10,20,size=(3,8)) # 3行8列
a2 = np.random.randint(1,10,size=(1,8)) # 1行8列
a3 = a1 - a2 # 行数相同,且a2只有1列,能互相运算
print(a1)
print(a2)
print(a3)
[[11 10 19 10 11 16 19 12]
[16 18 13 19 17 10 19 18]
[12 10 15 11 11 12 11 15]]
[[2 3 4 3 5 7 7 9]]
[[ 9 7 15 7 6 9 12 3]
[14 15 9 16 12 3 12 9]
[10 7 11 8 6 5 4 6]]
可以通过一些函数,非常方便的操作数组的形状
a1 = np.random.randint(0,10,size=(3,4))
print(a1)
a2 = a1.reshape((2,6)) # 将修改后的结果返回,不会影响原数组本身
print(a1)
print(a2)
[[5 6 9 5]
[0 5 2 8]
[5 4 1 0]]
[[5 6 9 5]
[0 5 2 8]
[5 4 1 0]]
[[5 6 9 5 0 5]
[2 8 5 4 1 0]]
a1 = np.random.randint(0,10,size=(3,4))
print(a1)
a1.resize((2,6)) # a1 本身发生了改变
print(a1)
[[1 0 8 9]
[4 4 9 9]
[1 9 9 1]]
[[1 0 8 9 4 4]
[9 9 1 9 9 1]]
x = np.array([[1,2],[3,4]])
print('初始的x:',x)
x.flatten()[1] = 100 # 此时的x[0]的位置元素还是1
print('使用flatten后修改元素值的x:',x)
y = x.ravel() # y并不是x,此时x的结构未变
y[1] = 100 # 此时的x[0]的位置元素还是1
print('使用ravel后修改元素值的x:',x)
print('使用ravel后修改元素值的y:',y)
初始的x: [[1 2]
[3 4]]
使用flatten后修改元素值的x: [[1 2]
[3 4]]
使用ravel后修改元素值的x: [[ 1 100]
[ 3 4]]
使用ravel后修改元素值的y: [ 1 100 3 4]
a1 = np.random.randint(0,10,size=(3,5))
a2 = np.random.randint(0,10,size=(1,5))
a3 = np.vstack((a1,a2))
print(a1,'\n')
print(a2,'\n')
print(a3)
[[1 5 7 5 0]
[1 3 5 1 7]
[4 8 5 5 2]]
[[2 0 0 2 3]]
[[1 5 7 5 0]
[1 3 5 1 7]
[4 8 5 5 2]
[2 0 0 2 3]]
a1 = np.random.randint(0,10,size=(3,2))
a2 = np.random.randint(0,10,size=(3,1))
a3 = np.hstack((a1,a2))
print(a1,'\n')
print(a2,'\n')
print(a3)
[[0 0]
[0 9]
[4 2]]
[[4]
[9]
[3]]
[[0 0 4]
[0 9 9]
[4 2 3]]
a = np.array([[1,2],[3,4]])
b = np.array([[5,6]])
np.concatenate((a,b),axis=0)
array([[1, 2],
[3, 4],
[5, 6]])
通过 hsplit 和 vsplit 以及 array_split 可以将一个数组进行切割
a1 = np.arange(16.0).reshape((4, 4))
print(a1)
print(np.hsplit(a1, 2)) # 分割成两部分
print(np.hsplit(a1,[1, 2])) # 代表在下标为1的地方切一刀,下标为2的地方切一刀,分成三部分
[[ 0. 1. 2. 3.]
[ 4. 5. 6. 7.]
[ 8. 9. 10. 11.]
[12. 13. 14. 15.]]
[array([[ 0., 1.],
[ 4., 5.],
[ 8., 9.],
[12., 13.]]), array([[ 2., 3.],
[ 6., 7.],
[10., 11.],
[14., 15.]])]
[array([[ 0.],
[ 4.],
[ 8.],
[12.]]), array([[ 1.],
[ 5.],
[ 9.],
[13.]]), array([[ 2., 3.],
[ 6., 7.],
[10., 11.],
[14., 15.]])]
a1 = np.arange(16.0).reshape((4, 4))
print(a1)
print(np.vsplit(a1, 2)) # 代表按照行总共分成2个数组
print(np.vsplit(a1,[1,2])) # 代表按照行进行划分,在下标为1的地方和下标为2的地方分割
[[ 0. 1. 2. 3.]
[ 4. 5. 6. 7.]
[ 8. 9. 10. 11.]
[12. 13. 14. 15.]]
[array([[0., 1., 2., 3.],
[4., 5., 6., 7.]]), array([[ 8., 9., 10., 11.],
[12., 13., 14., 15.]])]
[array([[0., 1., 2., 3.]]), array([[4., 5., 6., 7.]]), array([[ 8., 9., 10., 11.],
[12., 13., 14., 15.]])]
a1 = np.arange(16.0).reshape((4, 4))
np.split(a1,2,axis=0) # 按照垂直方向切割成2部分
# 等价于 np.array_split(a1,2,axis=0)
[array([[0., 1., 2., 3.],
[4., 5., 6., 7.]]),
array([[ 8., 9., 10., 11.],
[12., 13., 14., 15.]])]
numpy 中的数组其实就是线性代数中的矩阵。矩阵是可以进行转置的。ndarray 有一个T属性,可以返回这个数组的转置的结果
a1 = np.arange(0,24).reshape((4, 6))
print(a1.shape)
print(a1.T.shape)
(4, 6)
(6, 4)
另外还有一个方法叫做 transpose,这个方法返回的是一个View,也即修改返回值,会影响到原来数组
a1 = np.arange(0,24).reshape((4, 6))
print(a1.transpose())
[[ 0 6 12 18]
[ 1 7 13 19]
[ 2 8 14 20]
[ 3 9 15 21]
[ 4 10 16 22]
[ 5 11 17 23]]
为什么要进行矩阵转置呢,有时候在做一些计算的时候需要用到。比如做矩阵的内积的时候。就必须将矩阵进行转置后再乘以之前的矩阵
a1 = np.arange(0,24).reshape((4, 6))
a2 = a1.T
print(a1.dot(a2))
[[ 55 145 235 325]
[ 145 451 757 1063]
[ 235 757 1279 1801]
[ 325 1063 1801 2539]]
数组的广播机制运算
数组的形状改变
数组的叠加
数组的切割
矩阵的转置
在操作数组的时候,它们的数据有时候拷贝进一个新的数组,有时候又不是。这经常让初学者感到困惑。下面有三种情况:
如果只是简单的赋值,那么不会进行拷贝
a = np.arange(12)
b = a # 这个情况不会进行拷贝
print(b is a) # 返回True,说明b和a指向的是同一个物理空间
True
有些情况,会进行变量的拷贝,但是它们所指向的内存空间都是一样的,那么这种情况叫做浅拷贝,或者叫做 View(视图)
a = np.arange(12)
c = a.view()
print(c is a) # 返回False,说明c和a是两个不同的变量
print(a)
c[0] = 100 # 修改c的数据,a也被修改
print(a)
False
[ 0 1 2 3 4 5 6 7 8 9 10 11]
[100 1 2 3 4 5 6 7 8 9 10 11]
# 测试torch中的view方法也是浅拷贝
import torch
x = torch.randn(3,4,5)
print(x)
print(x.shape,'\n')
y = x.view(3,-1)
y[0][0] = 1
print(x)
tensor([[[-1.4582e+00, -1.8481e+00, 2.9551e-01, -1.4263e+00, 6.9132e-01],
[ 2.5786e+00, -7.9345e-01, -2.1037e+00, -6.2299e-01, -2.0349e+00],
[-1.1204e+00, 7.8410e-01, 4.2736e-02, 1.1501e+00, -4.5683e-01],
[ 2.9022e-01, 9.0955e-01, -9.7117e-01, 6.6526e-02, -1.6036e+00]],
[[ 8.6045e-01, -1.2575e+00, -6.4802e-01, -9.2809e-02, -4.1277e-01],
[-2.9113e-01, 8.5110e-01, -1.5484e-02, -1.2415e+00, 1.4440e+00],
[-1.8091e+00, -1.9069e+00, 1.5823e+00, -4.3149e-01, -5.9490e-01],
[ 1.5120e+00, 3.8810e-01, 5.0874e-01, 2.9571e-01, -3.4822e-01]],
[[-1.3785e+00, -2.2480e-01, -1.4546e+00, -4.3500e-01, 7.4371e-01],
[ 2.7077e-02, 6.3148e-01, 1.2705e+00, 2.2875e-01, 3.6703e-01],
[-8.7489e-02, -4.4425e-01, -1.5119e+00, -6.5937e-02, -1.4610e+00],
[ 7.8731e-01, 7.8602e-01, 2.1924e-04, -1.6953e+00, -1.1275e+00]]])
torch.Size([3, 4, 5])
tensor([[[ 1.0000e+00, -1.8481e+00, 2.9551e-01, -1.4263e+00, 6.9132e-01],
[ 2.5786e+00, -7.9345e-01, -2.1037e+00, -6.2299e-01, -2.0349e+00],
[-1.1204e+00, 7.8410e-01, 4.2736e-02, 1.1501e+00, -4.5683e-01],
[ 2.9022e-01, 9.0955e-01, -9.7117e-01, 6.6526e-02, -1.6036e+00]],
[[ 8.6045e-01, -1.2575e+00, -6.4802e-01, -9.2809e-02, -4.1277e-01],
[-2.9113e-01, 8.5110e-01, -1.5484e-02, -1.2415e+00, 1.4440e+00],
[-1.8091e+00, -1.9069e+00, 1.5823e+00, -4.3149e-01, -5.9490e-01],
[ 1.5120e+00, 3.8810e-01, 5.0874e-01, 2.9571e-01, -3.4822e-01]],
[[-1.3785e+00, -2.2480e-01, -1.4546e+00, -4.3500e-01, 7.4371e-01],
[ 2.7077e-02, 6.3148e-01, 1.2705e+00, 2.2875e-01, 3.6703e-01],
[-8.7489e-02, -4.4425e-01, -1.5119e+00, -6.5937e-02, -1.4610e+00],
[ 7.8731e-01, 7.8602e-01, 2.1924e-04, -1.6953e+00, -1.1275e+00]]])
# Python中的浅拷贝
import copy
a = ['a1', 1, 3]
b = a.copy()
b[0] = 'a2'
print(a)
# 此处由于元素是不可变数据类型,修改b[0]指向一个新的存储空间
print(b)
['a1', 1, 3]
['a2', 1, 3]
将之前数据完完整整的拷贝一份放到另一块内存空间中,这样就是两个完全不同的值了
a = np.arange(12)
d = a.copy()
print(d is a) # 返回False,说明d和a是两个不同的变量
d[0] = 100
print(a[0]) # 打印0,说明 d 和 a 指向的内存空间完全不同
False
0
有时候我们有了一个数组,需要保存到文件中,那么可以使用 np.savetxt 来实现
"""
np.savetxt(frame, array, fmt='%.18e', delimiter=None)
* frame:文件、字符或生成器,可以是.gz或.bz2的压缩文件
* array:存入文件的数组
* fmt:写入文件的元素数值精度,例如:%d、%.2f、%.18e
* delimiter:分割字符串,默认是任何空格(csv的分割符是,)
"""
a = np.arange(100).reshape((5,20))
np.savetxt('a.csv',a,fmt='%d',delimiter=',')
有时候我们的数据是需要从文件中读取出来的,那么可以使用 np.loadtxt 来实现
"""
np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)
* frame:文件、字符串或产生器,可以是.gz或.bz2的压缩文件
* dtype:数据类型,可选
* delimiter:分割字符串,默认是任何空格
* skiprows:跳过前面x行
* usecols:读取指定的列,用元组组合
* unpack:如果True,读取出来的数组时转置后的
"""
a = np.loadtxt('a.csv',dtype=int,delimiter=',')
print(a)
print(a.shape)
[[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19]
[20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
[40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79]
[80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99]]
(5, 20)
numpy 中还有一种独有的存储解决方案。文件名是以 .npy 或者 .npz 结尾的。该方法区别于CSV存储,它可以存储多维数组。以下是存储和加载的函数
c = np.random.randint(0,10,size=(2,3))
# frame不需要加后缀名(.npy)
np.save('c',c)
c = np.load('c.npy')
print(c)
[[2 9 1]
[9 0 3]]
首先我们要知道这两个英文单词代表的什么意思:
有时候,我们想要将数组中的 NAN 删除,那么我们可以换一种思路,就是只提取不为 NAN 的值
# 1. 删除所有的NAN的值,因为删除了值后数组将不知道该怎么变化,所以会被变成一维数组
data = np.random.randint(0,10,size=(3,5)).astype(np.float16)
data[0,1] = np.nan
print(data)
# 此时的data会没有nan,并且返回一个1维数组
data = data[~np.isnan(data)]
print(data)
# 2. 删除NAN所在的行
data = np.random.randint(0,10,size=(3,5)).astype(np.float16)
# 将第(0,1)和(1,2)两个值设置为NAN
data[[0,1],[1,2]] = np.nan
print(data)
# 获取哪些行有NAN
lines = np.where(np.isnan(data))[0]
print(lines)
# 使用delete方法删除指定的行,axis=0表示删除行,lines表示删除的行号
data1 = np.delete(data,lines,axis=0)
print(data1)
[[ 8. nan 6. 3. 6.]
[ 1. 6. 6. 3. 3.]
[ 2. 7. 6. 7. 0.]]
[8. 6. 3. 6. 1. 6. 6. 3. 3. 2. 7. 6. 7. 0.]
[[ 9. nan 1. 3. 5.]
[ 6. 7. nan 3. 3.]
[ 9. 5. 4. 5. 6.]]
[0 1]
[[9. 5. 4. 5. 6.]]
有些时候我们不想直接删掉,比如有一个成绩单,分别是数学和英语,但是因为某个人在某个科目上没有成绩,那么此时就会出现NAN的情况,这时候就不能直接删掉了,就可以使用某些值进行替代
数学 | 英语 |
---|---|
59 | 89 |
90 | 32 |
78 | 45 |
34 | NAN |
NAN | 56 |
23 | 56 |
如果想要求每门成绩的总分,以及每门成绩的平均分,那么就可以采用某些值替代。比如求总分,那么就可以把NAN替换成0,如果想要求平均分,那么就把NAN替换成其他值得平均值
scores = np.loadtxt('nan_scores.csv',skiprows=1,delimiter=',',dtype=str)
print(scores)
scores[scores == ''] = np.NAN
print(scores)
scores1 = scores.astype(np.float16)
print(scores1)
[['59.0' '89.0']
['90.0' '32.0']
['78.0' '45.0']
['34.0' '']
['' '56.0']
['23.0' '56.0']]
[['59.0' '89.0']
['90.0' '32.0']
['78.0' '45.0']
['34.0' 'nan']
['nan' '56.0']
['23.0' '56.0']]
[[59. 89.]
[90. 32.]
[78. 45.]
[34. nan]
[nan 56.]
[23. 56.]]
# 求总分
scores1[np.isnan(scores1)] = 0
scores1.sum(axis=1)
array([148., 122., 123., 34., 56., 79.], dtype=float16)
# 求科目的平均分
scores2 = scores.copy()
scores2 = scores2.astype(np.float16)
for x in range(scores2.shape[1]):
col = scores2[:,x]
average = col[~np.isnan(col)].mean()
col[np.isnan(col)] = average
print(scores2)
[[59. 89. ]
[90. 32. ]
[78. 45. ]
[34. 55.6]
[56.8 56. ]
[23. 56. ]]
np.random 为我们提供了许多获取随机数的函数
用于指定随机数生成时所用算法开始的整数值,如果使用相同的 seed() 值,则每次生成的随机数都相同,如果不设置这个值,则系统根据时间来自己选择这个值,此时每次生成的随机数因时间差异而不同。一般没有特殊要求不用设置
# 多次运行此处代码生成的随机数都一样
np.random.seed(1)
print(np.random.rand()) # 打印[0,1]的随机数
print(np.random.rand()) # 打印其他值,因为随机数种子只对下一次随机数的产生有影响
0.417022004702574
0.7203244934421581
生成一个值为 [0,1) 之间的数组,形状有参数指定,如果没有参数,那么将返回一个随机值
data1 = np.random.rand(2,3,4) # 生成2块3行4列的数组,值从0~1之间
data2 = np.random.rand() # 生成一个0-1之间的随机数
print(data1,'\n')
print(data2)
[[[0.34776586 0.7508121 0.72599799 0.88330609]
[0.62367221 0.75094243 0.34889834 0.26992789]
[0.89588622 0.42809119 0.96484005 0.6634415 ]]
[[0.62169572 0.11474597 0.94948926 0.44991213]
[0.57838961 0.4081368 0.23702698 0.90337952]
[0.57367949 0.00287033 0.61714491 0.3266449 ]]]
0.5270581022576093
生成均值( μ \mu μ)为0,标准差( σ \sigma σ)为1的标准正态分布的值
data = np.random.randn(2, 3) # 生成一个2行3列的数组,数组中的值都满足标准正态分布
print(data)
[[-0.30620401 0.82797464 0.23009474]
[ 0.76201118 -0.22232814 -0.20075807]]
生成指定范围内的随机数,并且可以通过 size 参数指定维度
data1 = np.random.randint(10,size=(3,5)) # 生成值在0-10之间,3行5列的数组
data2 = np.random.randint(1,20,size=(3,6)) # 生成值在1-20之间,3行6列的数组
print(data1,'\n')
print(data2)
[[5 1 2 4 3]
[0 6 0 7 2]
[8 3 0 8 4]]
[[14 19 16 10 1 13]
[18 11 13 16 15 12]
[ 8 4 16 15 3 5]]
从一个列表或者数组中,随机进行采样。或者是从指定的区间中进行采样,采样个数可以通过参数指定
data = [4, 65, 6, 3, 5, 73, 23, 5, 6]
result1 = np.random.choice(data, size=(2, 3)) # 从data中随机采样,生成2行3列的数组
result2 = np.random.choice(data, 3) # 从data中随机采样3个数据形成一个一维数据
result3 = np.random.choice(10, 3) # 从0-10之间随机取3个值
print(result1,'\n')
print(result2,'\n')
print(result3)
[[ 4 6 6]
[ 6 65 5]]
[ 4 5 65]
[7 3 1]
把原来数组的元素的位置打乱
a = np.arange(10)
print(a,'\n')
np.random.shuffle(a) # 将a的元素的位置都会进行随机打乱
print(a,'\n')
a = np.arange(10).reshape((2,5))
print(a,'\n')
np.random.shuffle(a) # 将a的元素的位置都会进行随机打乱
print(a)
[0 1 2 3 4 5 6 7 8 9]
[1 2 8 0 3 9 5 6 7 4]
[[0 1 2 3 4]
[5 6 7 8 9]]
[[5 6 7 8 9]
[0 1 2 3 4]]
之前的课程中,为了方便大家理解,我们说 axis = 0代表的是行,axis = 1代表的是列。但其实不是这么简单理解的
简单来说,最外面的括号代表着 axis=0,依次往里的括号对应的axis 的技术就依次加1
最外面的括号就是 axis=0,里面两个子括号 axis=1
操作方式:如果指定轴进行相关的操作,那么他会使用轴下的每一直接子元素的第0个,第1个,第2个…分别进行相关的操作
x=np.array([[0,1],[2,3]])
# 1. 求 x 数组在 axis=0 和 axis=1两种情况下的和
print(x.sum(axis=0),'\n')
print(x.sum(axis=1))
[2 4]
[1 5]
函数 | 描述 |
---|---|
np.abs | 绝对值 |
np.sqrt | 开根 |
np.square | 平方 |
np.exp | 计算指数(e^x) |
np.log,np.log10,np.log2,np.log1p | 求以e为底,以10为底,以2为底,以(1+x)为底的对数 |
np.sign | 将数组中的值标签化,大于0的变成1,等于0的变成0,小于0的变成-1 |
np.ceil | 向上取整 |
np.floor | 向下取整 |
np.rint,np.round | 返回四舍五入后的值 |
np.modf | 将整数和小数分隔开来形成两个数组 |
np.isnan | 判断是否是nan |
np.isinf | 判断是否是inf |
np.cos,np.cosh,np.sin,np.sinh,np.tan,np.tanh | 三角函数 |
np.arccos,np.arcsin,np.arctan | 反三角函数 |
函数 | 描述 |
---|---|
np.add | 加法运算(即1+1=2),相当于+ |
np.subtract | 减法运算(即3-2=1),相当于- |
np.negative | 负数运算(即-2),相当于加个负号 |
np.multiply | 乘法运算(即2*3=6),相当于* |
np.divide | 除法运算(即3/2=1.5),相当于/ |
np.floor_divide | 取整运算,相当于// |
np.mod | 取余运算,相当于% |
greater,greater_equal,less,less_equal,equal,not_equal | >,>=,<,<=,==,!=的函数表达式 |
logical_and | &的函数表达式 |
logical_or | |的函数表达式 |
函数名称 | NAN安全版本 | 描述 |
---|---|---|
np.sum | np.nansum | 计算元素的和 |
np.prod | np.nanprod | 计算元素的积 |
np.mean | np.nanmean | 计算元素的平均值 |
np.std | np.nanstd | 计算元素的标准差 |
np.var | np.nancar | 计算元素的方差 |
np.min | np.nanmin | 计算元素的最小值 |
np.max | np.nanmax | 计算元素的最大值 |
np.median | np.nanmedian | 计算元素的中位数 |
np.argmin | np.nanargmin | 找出最小值的索引 |
np.argmax | np.nanargmax | 找出最大值的索引 |
a = np.arange(24).reshape((3,8))
print(a)
b = np.argmax(a,axis=1)
print(b)
[[ 0 1 2 3 4 5 6 7]
[ 8 9 10 11 12 13 14 15]
[16 17 18 19 20 21 22 23]]
[7 7 7]
函数名称 | 描述 |
---|---|
np.any | 验证任何一个元素是否为真 |
np.all | 验证所有元素是否为真 |
比如想看下数组中是不是所有元素都是0,那么可以通过以下代码来实现
a = np.zeros((3,5))
np.all(a==0)
# 或者
(a==0).all()
True
比如我们想看数组中是否有等于0的数,那么可以通过以下代码来实现
np.any(a==0)
# 或者
(a==0).any()
True
a = np.random.randint(0,10,size=(3,5))
print(a,'\n')
b = np.sort(a) # 按照行进行排序,因为最后一个轴是1,那么就是将最里面的元素进行排序
c = np.sort(a,axis=0) # 按照列进行排序,因为指定了axis=0
print(a,'\n')
print(b,'\n')
print(c,'\n')
[[4 8 2 1 6]
[3 8 9 7 0]
[5 2 2 8 5]]
[[4 8 2 1 6]
[3 8 9 7 0]
[5 2 2 8 5]]
[[1 2 4 6 8]
[0 3 7 8 9]
[2 2 5 5 8]]
[[3 2 2 1 0]
[4 8 2 7 5]
[5 8 9 8 6]]
a = np.random.randint(0,10,size=(3,5))
print(a)
np.argsort(a) # 默认使用最后的一个轴来进行排序
[[0 5 9 8 6]
[6 0 4 7 3]
[0 1 6 0 6]]
array([[0, 1, 4, 3, 2],
[1, 4, 2, 0, 3],
[0, 3, 1, 2, 4]], dtype=int64)
a = np.random.randint(0,10,size=(3,5))
print(a,'\n')
# 1. 使用负号
print(-np.sort(-a),'\n')
# 2. 使用sort和argsort以及take(结果有问题)
indexes = np.argsort(-a) # 排序后的结果就是降序
print(np.take(a,indexes),'\n') # 从a中根据下标提取相应的元素
[[4 6 6 2 2]
[4 1 2 3 9]
[3 6 7 0 3]]
[[6 6 4 2 2]
[9 4 3 2 1]
[7 6 3 3 0]]
[[6 6 4 2 2]
[2 4 2 6 6]
[6 6 4 2 2]]
a = np.arange(24).reshape((3,8))
print(a)
# 求数组 a 按照行求均值,并且要去掉最大值和最小值
# x为原数组中的各个行向量
np.apply_along_axis(lambda x:x[(x!=x.max()) & (x != x.min())].mean(),axis=1,arr=a)
[[ 0 1 2 3 4 5 6 7]
[ 8 9 10 11 12 13 14 15]
[16 17 18 19 20 21 22 23]]
array([ 3.5, 11.5, 19.5])
# 将0-1分成12份,生成一个数组
np.linspace(0,1,12)
array([0. , 0.09090909, 0.18181818, 0.27272727, 0.36363636,
0.45454545, 0.54545455, 0.63636364, 0.72727273, 0.81818182,
0.90909091, 1. ])
a = np.random.randint(0,10,size=(3,8))
print(a)
# 返回数组a中的唯一值,并且会返回每个唯一值出现的次数
np.unique(a,return_counts=True)
[[3 6 8 6 5 1 3 2]
[6 3 6 7 2 8 0 1]
[8 6 0 0 1 2 7 7]]
(array([0, 1, 2, 3, 5, 6, 7, 8]), array([3, 3, 3, 3, 1, 5, 3, 3], dtype=int64))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。