当前位置:   article > 正文

前馈(向)网络之卷积神经网络_前馈神经网络输入层卷积

前馈神经网络输入层卷积

传统的神经网络

多层感知器(DNN,MLP等),对图片这类数据可能不太适合!

 图片数据,比如:32*32*3,展开大概是4000维的向量,如果一层神经元是1024个那么进行全连接每层会有400W个参数

ps:参数过多主要是会导致过拟合的,而且网络学习很缓慢。

ps:一般是没有足够的样本量来去学习这么复杂的网络。

ps:基于参数的问题,于是引出了卷积神经网络(CNN)!

引出卷积神经网络

数据输入层/input  layer

   :主要进行数据的预处理,数据标准化(图像数据乘1/255即可),PCA降维,图片加噪声。

卷积计算层/CONV layer

计算示例的标准格式:

      :深度(depth)是神经元的个数,步长stride是滑窗滑动的格数(比如3*3的矩阵每次滑动1格),矩阵的padd填充                       值为0!公式:(8-3)/s+1。O=(I-K+2P)/S+1   p=padding=SAME  s=stride[1,2,2,1]

      :参数共享机制,一个神经元对应图片每个滑窗的权重一样,但是不同神经元的权重是不同的

ps:可以促使参数量降低很多,是跟每层的卷积核个数,卷积核的size,以及深度有关。

ps:第一,能够很好的把参数量降低下来,

ps:第二,卷积的过程也是在进行内积的运算促使特征进行组合。

正常情况的卷积计算示例:(上下每次移动4格)

1*1的卷积核示例:其实就是利用数值将通道数量缩减了(512==>32)

ps:1*1卷积核,可以进一步降低参数量,将通道深度进行内积整合到一起进行了特征组合。

全连接计算:

激励层/Activation  layer(通常卷积层后面会默认跟一个激励层)

       :把卷积层的的输出结果做一个非线性映射

ps:通过卷积层也可以看成是一种特征的组合。

ps:非线性的变换也可看成是一种特征的组合。

       :激活函数

ps:激活函数可能会引来梯度弥散的问题。

ps:比如sigmod和tanh函数对于bp反向传播的梯度优化会造成此问题,当模型层数过深也会导致此问题。

ps:sigmoid和tanh的值域是对称的形式;       

       :ReLu是修正线性单元,大于0就有斜率,小于0就为0,可以达到随机失活(dropout)的特性!

       :Leakly ReLu 是对ReLu斜率的线性修正,斜率不会直接为零。

       :Maxout,是用两条线段进行组合,不同的值在哪条线上斜率大就取谁。

       :ELu,是对ReLu的一种修正,是指数修正

ps:一般会先使用Relu激活函数,一般效率高而且效果还好。

池化层/pooling  layer(下采样层)

         :Max Pooling最大池化:保留数据当中最明显的特征(用的最多)

         :Average Pooling平均池化:保留数据中的平均值特性(用的不多)

ps:降维, 来降低过拟合的风险。   

ps:满足特征不变性,我们只关注明显的特征值,而不是特征的边缘位置信息,使用池化层可以把这些不重要的位置信息去除掉,而保留最重要的特征!

全连接层/FC layer

         :两层之间所有的神经元都有权重连接

ps:相当于就是一个笛卡尔积。

         :通常全连接层在卷积神经网络尾部

         :全连接层,是把图像展开成一维向量,然后与权重相乘得到一个val来实现全连接!

ps:展开后会造成大量的参数。

过拟合之正则化与Dropout:

:当模型过拟合的时候。

ps:L1和L2正则项处理效果不明显,在这里提出随机失活的思路!

:每一轮训练中,在每一层中的神经元会有一个开关,有概率失活也有概率打开

:开关是闭合的该怎么算就怎摸算,当开关一旦打开,不管前面算到的甚么结果都会失效,值为零,从新进行学习!

Dropout的理解:

:第一种,神经网络学到的东西太复杂了,要保持泛化能力,就要通过舍弃信息,让学习变得的缓慢一点!

ps:通过舍弃信息来保持泛化能力,减缓学习速度,来提升效果。

:第二种,每轮训练都关掉一部分感知器,每一轮都会得到一个新模型,相当于是进行模型融合bagging减少方差!

ps:通过训练多个模型来解决过拟合的问题。

ResNet网络

ps:基于模型来解决梯度消失这一问题,引出ResNet。

这个网络的连接不是一层扣一层的,每层都会有一个高速通道(算是一条捷径)可以进行跳跃。

ps:通过高速通道天然的防止过拟合!

ps:就是通过在梯度连乘的基础上引进了加法。

ps:基于此很好的处理了梯度弥散的问题。

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号