赞
踩
全文共 9940字,预计学习时长 20分钟或更长
不同神经网络结构各有所长。本文主要介绍如何在Python中使用TensorFlow和Keras构建卷积神经网络。
卷积神经网络是过去十年中深度学习成为一大热点的部分原因。今天将使用TensorFlow的eager API来训练图像分类器,以辨别图像内容是狗还是猫。
人工神经网络在许多领域都展现出了其强大功能,最近已经应用到很多行业中。然而,不同深度学习结构各有以下优势:
· 图像分类(卷积神经网络)。
· 图像、音频和文本生成(GANS,RNN)。
· 时间序列预测(RNNS,LSTM)。
· 推荐系统(波尔兹曼机)。
· 等等 (如,回归)。
本文将集中讨论其中的第一项。
卷积神经网络的概念
在多层感知器(Multilayer Perceptrons,简称MLP)中,每一层的神经元都连接到下一层的所有神经元。一般称这种类型的层为完全连接。
多层感知器示例。图片来源: astroml
卷积神经网络则不同:它们包含卷积层。
在完全连接层上,每个神经元的输出将是前一层的线性变换,由非线性激活函数(如ReLu或Sigmoid)组成。
相反,卷积层中每个神经元的输出仅仅是前一层神经元的子集(通常很小)的函数。
图片来源: Brilliant
卷积层上的输出是对前一层神经元的子集进行卷积的结果,然后得出激活函数。
卷积的概念
如果给定输入矩阵A(通常是前一层的值)以及称为卷积核或滤波器K的权值矩阵(通常小得多),卷积运算后将输出新的矩阵B。
图片来自@RaghavPrabhu
如果K是C×C矩阵,则B中的第一个元素的计算方法为:
· 取A的第一个C×C子矩阵。
· 将每个元素乘以K中相应的权值。
· 将所有结果相加。
最后两步相当于将A的子矩阵和K的子矩阵平面化,并计算结果的向量的点积。
然后向右滑动K以获取下一个元素。依此类推,对A的每一行重复此过程。
卷积图例 图片来自 @RaghavPrabhu
根据需要,只能从以C排和C列为中心的卷积核开始,以避免“越界”,或者假设“A之外”的所有元素都有一个默认值(通常为0)——这将决定B究竟是小于A还是等于A。
可以看到,如果A是一个N×M矩阵,那么B中每个神经元的值将不取决于N×M权重,而只取决于其中的C×C(更少)。
这使得卷积层比完全连接层更轻便,帮助卷积模型更快地学习。
最终将在每一层上将使用大量卷积核(获取一个矩阵叠层作为每一层的输出)。然而,它仍然比曾经的MLP要轻便得多。
工作原理
为什么每个神经元对其他大多数神经元的影响可以忽略不计呢?整个系统的前提是,每个神经元都受到它的“邻域”的强烈影响。距离较远的神经元却对此只有很小的影响。
这一假设直观地表现在图像中——说到输入层,就想到每个神经元将是一个像素或像素的RGB值。这也是卷积神经网络方法在图像分类中如此有效的部分原因。
举个例子,如果抓取一张蓝天的照片的局域,附近的区域可能也会用类似的色调显示天空。
像素的邻域通常具有与其相似的RGB值。如果没有,那么可能意味着它是一个图形或物体的边缘。
如果用纸笔(或计算器)做一些卷积,就会意识到,如果是在某种边缘上,某些卷积核会增加输入的强度。在其他边缘,则会减少强度。
下面是卷积核V和H的示例:
垂直和水平边缘的滤波器
V过滤垂直边缘(上面的颜色与下面的颜色非常不同),H过滤水平边缘。注意其中一个是另一个的转置。
卷积示例
以下是一组未经过滤的猫咪照片:
如果分别应用水平和垂直边缘滤波器,会得出以下结果:
可以看到某些特征是变得更加显著的,而另一些特征逐渐消失。有趣的是,每个过滤器都展示了不同的特征。
这就是卷积神经网络学习识别图像特征的方法。
让它们适应自己的卷积核权值比任何手动方法都容易得多。手动表达像素之间的关系是难以实现的。难以想象人应该如何徒手厘清像素之间的关系!
想要真正理解每一个卷积对图片的作用,强烈推荐此网站:http://setosa.io/ev/image-kernels/。它比任何一本书或教程的帮助都大。
之前已经介绍到了一些理论。现在进入到实践环节。
如何在TensorFlow中训练卷积神经网络
TensorFlow是Python最流行的深度学习框架。
笔者也听说过PyTorch很好用,但从来没有机会尝试过。
笔者已经编写了一个如何使用TensorFlow的KerasAPI来训练神经网络的教程,着重介绍了自动编码器:http://www.datastuff.tech/machine-learning/autoencoder-deep-learning-tensorflow-eager-api-keras/
本文将尝试三种不同的体系结构,优中选优。
和往常一样,所有的代码都可以GitHub上找到(https://github.com/StrikingLoo/Cats-and-dogs-classifier-tensorflow-CNN),所以可以自己进行尝试,或者参考本文示例。当然,本文还会进行Python代码段的展示。
数据集
下面将训练一个神经网络来预测一幅图像包含的是一只狗还是一只猫。为此,将使用Kaggle的相关数据集,其中包含不同分辨率的12500只猫和12500只狗的图片。
用NumPy加载和预处理图像数据
具有固定维数的特征向量或矩阵输入至神经网络中。那么它是如何从图片中生成的呢?
幸运的是,Python的图像库提供了一种简单方法,可将图像加载为NumPy数组,一个RGB值的高×宽矩阵。
在Python中进行图像过滤时,已经完成这个操作了,所以接下来将再次使用这段代码。
但仍然需要对固定维度进行修复。那么如何选择输入层的维度呢?
这一点很重要,因为必须根据所选分辨率调整每个图片的大小。纵横比不能扭曲太多,以免给网络带来太多噪声。
下面是数据集中最常见的尺寸。
customAdam = keras.optimizers.Adam(lr=0.001)model.compile(optimizer=customAdam, # Optimizer # Loss function to minimize loss="mean_squared_error
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。