赞
踩
零、巴拉巴拉
参考视频链接(号称最好的卷积神经网络讲解视频):
https://www.bilibili.com/video/av16175135?from=search&seid=183876657971548042
本文仅介绍CNN的工作原理
一、前言
简单的讲,CNN的功能即为一个处理黑箱。输入一张图片的像素信息,经过CNN处理之后,输出该图片中的物体是什么。
即使图片经过平移、缩放、旋转、加厚等操作,仍然能有效识别出来。
放一张数据结构打开图,这张图的详细步骤流程会在下文叙述
那么图片信息是如何表示的呢?
在计算机中,图片是以每个像素值所组成的矩阵表示的。在灰度图中,1表示白色,-1表示黑色。
那么怎么判断图片之间的相似性呢?
如图所示的图片(旋转不变性),将其分为几个块,可以看出,虽然图像整体发生了变化,但是每个块内对应的子特征却没有变化。即认为两张图中的物体具有相似性。
那么怎么提取物体的特征呢?
即通过不同的卷积操作,将对应的特征提取出来。如图,第一个卷积核能提取出红色框内的特征,第二个卷积核能提取出橙色框内的特征,第三个卷积核能提取出绿色框内的特征。(根据梯度)
二、 卷积神经网络的步骤
准备知识:卷积计算过程
绿色为原图像素信息,红色数字矩阵为卷积核,黄色为卷积核在原图上进行逐行扫描的矩阵区域。
将卷积核矩阵和扫描区域的矩阵的每个元素对应数值,相乘再相加再取均值,即得右边粉色的新特征矩阵 。
以第一个卷积核为例(特征位置处的元素数值为1),当其在图像上移动到如图位置时,卷积结果为1,与特征值1相同。即可认为该区域的值和特征完全一致,即为1。
当其在图像上移动到如图位置时,卷积结果为0.55,表面该区域特征与卷积核特征不相同,但是依然保留了0.55的特征相似性。
最后卷积核对整个图像进行卷积的结果如图,得到feature map。
沿着对角线的值接近于1,表示特征相似性大,其它值较低的表示特征相似性小。
可以看出,feature map中的特征与卷积核的特征分布很相似,即认为在原图像中找到了该特征。
不同的卷积核对应的结果如下 ,很明显,提取出了不同的特征,与原卷积核很相似。
PS:若用一个圆圈形状的卷积核进行运算,最后结果数值会很随机,表示原图中没有圆的特征。
用激活函数(修正线性单元ReLUs)将负数修正为0
对卷积后的图像进行归一化处理
作用:把卷积操作得到的feature map进行缩小,提高计算效率。
类别:最大池化、平均池化
一般取最大池化,在保留原图信息的同时还能降低计算量
如图,将原图像分为4个大区域,进行卷积计算后,每块区域下采样为一个像素值(取每个区域结果的最大值),即缩小了图片的信息量。
对归一化的图像进行最大池化的结果如下,对于边缘位置,进行补零(zero padding)
选用多个不同的卷积核进行卷积运算,得到不同的结果,如图(此处以3个为例)
将矩阵展开,排成一列,连接在一起
根据每个数值的权重占比,计算出结果是什么的概率。什么有最大的可能性,那么计算结果就是什么。
如何取特征的卷积核才能有效识别出目标?此识别的过程涉及到样本的训练和机器学习。
数据训练集网站:http://www.image-net.org/
即在有大量数据训练的基础上,CNN会学会针对不同的物体选用不同的最有效的卷积核进行运算,不需要人为的指定。Amazing!
将结果与真实结果进行误差计算,通过反向反馈,不断地修改卷积核的参数,将损失函数(梯度下降)降到最低,即得到最优的结果。
如图,原图是X的概率为0.92,是O的概率为0.51,总误差为0.57。
三、总结
综上,卷积神经网络包含卷积、抹零、池化,
也可以三者为一个单元,不断地循环迭代,直到得到理想的结果。
四、应用
卷积神经网络可以处理图片、视频、语音、文本等数据结构能够呈现出图片格式的信息。
限制:如果数据结构的某一列可以互换,那么就不能用卷积神经网络。
参考内容:https://zhuanlan.zhihu.com/p/49184702
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。