赞
踩
多层感知器(DNN,MLP等),对图片这类数据可能不太适合!
图片数据,比如:32*32*3,展开大概是4000维的向量,如果一层神经元是1024个那么进行全连接每层会有400W个参数
ps:参数过多主要是会导致过拟合的,而且网络学习很缓慢。
ps:一般是没有足够的样本量来去学习这么复杂的网络。
ps:基于参数的问题,于是引出了卷积神经网络(CNN)!
数据输入层/input layer
:主要进行数据的预处理,数据标准化(图像数据乘1/255即可),PCA降维,图片加噪声。
卷积计算层/CONV layer
计算示例的标准格式:
:深度(depth)是神经元的个数,步长stride是滑窗滑动的格数(比如3*3的矩阵每次滑动1格),矩阵的padd填充 值为0!公式:(8-3)/s+1。O=(I-K+2P)/S+1 p=padding=SAME s=stride[1,2,2,1]
:参数共享机制,一个神经元对应图片每个滑窗的权重一样,但是不同神经元的权重是不同的
ps:可以促使参数量降低很多,是跟每层的卷积核个数,卷积核的size,以及深度有关。
ps:第一,能够很好的把参数量降低下来,
ps:第二,卷积的过程也是在进行内积的运算促使特征进行组合。
正常情况的卷积计算示例:(上下每次移动4格)
1*1的卷积核示例:其实就是利用数值将通道数量缩减了(512==>32)
ps:1*1卷积核,可以进一步降低参数量,将通道深度进行内积整合到一起进行了特征组合。
全连接计算:
激励层/Activation layer(通常卷积层后面会默认跟一个激励层)
:把卷积层的的输出结果做一个非线性映射
ps:通过卷积层也可以看成是一种特征的组合。
ps:非线性的变换也可看成是一种特征的组合。
:激活函数
ps:激活函数可能会引来梯度弥散的问题。
ps:比如sigmod和tanh函数对于bp反向传播的梯度优化会造成此问题,当模型层数过深也会导致此问题。
ps:sigmoid和tanh的值域是对称的形式;
:ReLu是修正线性单元,大于0就有斜率,小于0就为0,可以达到随机失活(dropout)的特性!
:Leakly ReLu 是对ReLu斜率的线性修正,斜率不会直接为零。
:Maxout,是用两条线段进行组合,不同的值在哪条线上斜率大就取谁。
:ELu,是对ReLu的一种修正,是指数修正
ps:一般会先使用Relu激活函数,一般效率高而且效果还好。
池化层/pooling layer(下采样层)
:Max Pooling最大池化:保留数据当中最明显的特征(用的最多)
:Average Pooling平均池化:保留数据中的平均值特性(用的不多)
ps:降维, 来降低过拟合的风险。
ps:满足特征不变性,我们只关注明显的特征值,而不是特征的边缘位置信息,使用池化层可以把这些不重要的位置信息去除掉,而保留最重要的特征!
全连接层/FC layer
:两层之间所有的神经元都有权重连接
ps:相当于就是一个笛卡尔积。
:通常全连接层在卷积神经网络尾部
:全连接层,是把图像展开成一维向量,然后与权重相乘得到一个val来实现全连接!
ps:展开后会造成大量的参数。
:当模型过拟合的时候。
ps:L1和L2正则项处理效果不明显,在这里提出随机失活的思路!
:每一轮训练中,在每一层中的神经元会有一个开关,有概率失活也有概率打开
:开关是闭合的该怎么算就怎摸算,当开关一旦打开,不管前面算到的甚么结果都会失效,值为零,从新进行学习!
Dropout的理解:
:第一种,神经网络学到的东西太复杂了,要保持泛化能力,就要通过舍弃信息,让学习变得的缓慢一点!
ps:通过舍弃信息来保持泛化能力,减缓学习速度,来提升效果。
:第二种,每轮训练都关掉一部分感知器,每一轮都会得到一个新模型,相当于是进行模型融合bagging减少方差!
ps:通过训练多个模型来解决过拟合的问题。
ps:基于模型来解决梯度消失这一问题,引出ResNet。
这个网络的连接不是一层扣一层的,每层都会有一个高速通道(算是一条捷径)可以进行跳跃。
ps:通过高速通道天然的防止过拟合!
ps:就是通过在梯度连乘的基础上引进了加法。
ps:基于此很好的处理了梯度弥散的问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。