weixin_40725706

这个屌丝很懒，什么也没留下！

热门标签

机器学习中的numpy的array_机器学习- Numpy基础吐血整理

作者：weixin_40725706 | 2024-03-20 07:24:48

踩

2-dimensional numpy-array是什么意思

Numpy是专门为数据科学或者数据处理相关的需求设计的一个高效的组件。听起来是不是挺绕口的，其实简单来说就2个方面，一是Numpy是专门处理数据的，二是Numpy在处理数据方面很牛逼(肯定比Python原生组件牛逼，否则也不会另外再来搞个Numpy了吧)。其实更加细化的来看其实Numpy最常用的就是矩阵(Matrix)的处理。如何有一点数据处理方面的经验的话，无论你每一条数据有多少个features(特征)，它终究是一个二维的矩阵。所以Numpy在数据处理方面是非常常用的。就是简单点理解就是Numpy其实就是封装了Python中的list，Numpy其实就是一个high level的List而已，它没有什么牛逼的，底层还是Python。好了，闲话少扯了，上面的我个人觉得说的有点小啰嗦了，容易把人搞晕了。咱们还是直接看看下面的例子，看看Numpy的创建，索引，函数吧。下面并不包括Numpy的所有功能，具体很多细节，大家要学会看文档，下面的内容主要介绍一些最基本最常用的一些功能，下面的内容只是一个方向指导作用，具体在业务需求中需要用到什么API麻烦还是要大家自己去找文档查看吧。

Numpy的创建和结构分析

好了，既然咱们这里要说说Numpy，那咱们就肯定得先有一个Numpy对象啊(如果不知道啥叫对象，麻烦大家直接去看Hello world). 创建Numpy对象的步骤是先导入Numpy库，然后直接调用array()方法。详情请看下面的实例。

import numpy asnp

w= np.array([3,0,5])#w isa numpy array

type(w)

上面的代码实例其实就是创建了一个numpy，注意它这里的w的类型已经不是list了，而是ndarray(其实就是numpy data array 的简称)。 w的值也是array([3,0,5])了，而不是直接的[3,0,5]。这里直接就从表象(也就是最直观的方面)区别了numpy array和list的区别了。为了更加直观的展现numpy的结构，下面再用一个二维数组的例子来说明。

a = np.array([[1,2],[3,4],[5,6]])#a is a 2-dimensional numpy array

print(a)

上面这是一个二维的Numpy array。其实如果你仔细看，她就是把Python中的list作为参数传递给了numpy.array()这个方法。a的值如下所示

array([[1, 2],

[3, 4],

[5, 6]])

到目前为止，大家肯定心里犯嘀咕了，这TM也没有什么牛逼的啊，比Python中的list搞得还复杂，毕竟Python中的list也可以是一维的也可以是多维的，而且表现形式还更加简单快速，还更加底层，因而运行速度也更加快。如果仅仅是这么简单，说明你们还是太天真，很傻很可爱。哈哈哈哈哈哈，下面我就来说说社会主义的优越性(错了，是Numpy在数据处理中的优越性)

Numpy中常用的properties和method

要说Numpy的牛逼之处，就不得不说它提供了丰富的API来快速简单的操作matrix。首先来介绍一下最常用的properties：transpose(T)和shape。这两个properties(不是我装逼，真是忘了中文翻译是啥了，应该叫成员变量还是啥的)。如果你想转置一个矩阵，下面一行代码搞定

a = np.array([[1,2,3],[4,5,6]])print(a.T)#transpose of matrix a

一行代码搞定矩阵的转置，方便吧，上面代码返回值如下：

array([[1, 4],

[2, 5],

[3, 6]])

另外一个重要的特性就是shape啦。这个关键字可以直接返回矩阵的row 和 column，在进行数据预处理前，了解数据的这些特性，可以非常有效的帮助我们了解数据。例如上面我们的a是一个2行3列的矩阵，那么下面的代码就返回(2,3)

a.shape #return a tuple (2,3)

另外，Numpy中有一个非常常用的函数叫做reshape()，它的参数分别是row和column的数量，记住reshape前后，元素的数量要一致，否则会报错。什么意思呢，就是加入一个矩阵a是2*3的矩阵，那么你可以reshape(3,2)或者reshape(6,1)，如果你reshape(2,1)它就会报错。还是那上面的例子吧，参看下面的例子

a1 = a.reshape(3,2)

a2= a.reshape(6,1)

上面的返回值分别是

array([[1, 2],

[3, 4],

[5, 6]])

array([[1],

[2],

[3],

[4],

[5],

[6]])

这个功能是不是很牛逼呢。哈哈。。

Index 和 slicing

既然是矩阵，indexing和slicing应该是经常要用到的，在机器学习中，尤其是slicing更是几乎都要用到。首先index的话，既可以直接索引一个元素，也可以索引一行数据或者一列数据。具体的实例如下所示

a = np.array([[1,2,3],[4,5,6]]) #create a 2d numpy array

a[0,1]#retrieve the element in the numpy array a with the index of (row = 0, column = 1)

a[0]#retrieve the first row of the matrix a， the effect is the same as a[0,:]

a[:,1]#retrieve the second column of the matrix a

具体的代码解释就看看上面的注释就行了。这里需要解释一下细节部分就是上面a[0,1]返回的是一个scalar(实数)，a[0]和a[:,1]返回的都是一维numpy数组，即使是取的第二列数据，也是一维的而不是二维的。即上面代码的返回值如下：

2array([1,2,3])

array([2,5])

对于slicing而言，她的返回值的维数始终等于原数组的维数，这句话啥意思呢，简单来说，slicing分割出来的结果，哪怕只是分割一个元素，它的维数也是跟原数组的维数一样。例如分割一个二维数组，无论你怎么分割，它的结果都是二维的。这是跟index最大的一个区别。slicing 的结构是 array[row_start:row_end, column_start:column_end]. 具体的实例如下所示

a[0:1,:]# return the first row, 2d arraya[:,0:1]# return the first column, 2d arraya[0:1,0:1]#return the cross of first row and first column, it is still a 2d numpy array though is a single element

看看上面的分割例子，第一个是只沿着row的方向分割，第二个是只沿着column的方向分割，第三个是即沿着row也沿着column的方向分割。他们的结果的structure都是和a的structure一样，都是二维的。结果如下：

array([[1, 2, 3]])

array([[1],

[4]])

array([[1]])

总结：最后国际惯例都来个大总结啦。其实在机器学习中numpy的常用用法就上面这些，例如创建，index，slicing，transpose和reshape。这些方法和应用场景是最常见的。虽然前面说了这么多numpy的介绍，但是numpy的库博大精深，数以万计的api等待着大家去探索。哈哈哈，莫慌莫慌。随后numpy相当于封装了Python中的list，但是在后面你们会看见，机器学习的实践中直接操作numpy的几率比较少，因为后面还有更牛逼的处理数据的库，那就是大boss---pandas。你们也可以理解pandas是对numpy的进一步抽象和封装，使用起来更加方便快捷。所以大家先理解，记住关键是理解numpy的形式和思路就行，不是把上面的内容死记硬背下来，那样没有意义，关键是一种学习的方法和学习的能力。把基本功练扎实了，咱们才能一起一路打怪升级。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/271630

机器学习中的numpy的array_机器学习- Numpy基础 吐血整理

机器学习中的numpy的array_机器学习- Numpy基础吐血整理