当前位置:   article > 正文

卷积神经网络CNN要点:CNN结构、采样层、全连接层、Zero-padding、激活函数及Dropout_卷积神经网络dropout rate取值

卷积神经网络dropout rate取值
CNN结构:

卷积层:特征提取;
采样层:特征选择;
全连接层:根据特征进行分类。

采样层(pooling):

max-pooling:克服卷积层权值参数误差;
average-pooling:克服卷积核邻域大小受限。

全连接层(Fully Connected Layer):

全连接层(FC) 可以看为和上一个采样层(pooling) 中存在一个卷积操作。如:上一个采样层维数为3*3*5,而全连接层维数为1*4096。那么中间可以看做存在一个3*3*5*4096的卷积层进行了卷积操作。

这一步操作相当于把前面提取出的分布式特征映射到样本标记空间。即忽略特征之间的相对位置信息(空间结构特性),把所有特征整合到一起输出为一个值。

FC 的层数越多,越能表达非线性问题。但由于参数量大,会降低学习效率。因此,新提出的网络模型如 ResNet 和 GoogLeNet 采用全局平均池化(global average pooling,GAP)取代 FC 来融合学习到的特征,这样得到的网络通常具有更好的预测性能

Zero-padding作用:
  1. 方便提取更加细致的特征
  2. 控制卷积层输出的特征图的大小,达到控制网络结构的作用。
激活函数:

在CNN中激活函数的引入,为了解决以下几个问题:

  1. 通过叠加简单的神经网络,无法解决非线性分类问题;
  2. 在CNN中需要根据神经网络输出值进行分类;
  3. 误差反向传播时,X过大会导致error过大,这样更新权值没有意义;
  4. 线性分类器在误差反向传播过程中,梯度的计算和输入无关。

因此激活函数的引入有如下作用:

  1. 提高模型鲁棒性;
  2. 使网络具有非线性表达能力;
  3. 缓解梯度消失问题;
  4. 将特征图映射到新的特征空间有利于训练;
  5. 加速模型收敛。
Dropout要点:

Dropout_rate一般设置为0.3~0.5之间。
在训练时要对没有被Dropout的神经元权值做一个rescale:
r e s c a l e _ r a t e = 1 1 − d r o p o u t _ r a t e rescale\_rate = \frac{1}{1-dropout\_rate} rescale_rate=1dropout_rate1
因此训练过程中前向传播公式可以写为:
r ( l ) = B e r n o u l l i ( p ) r^{(l)} = Bernoulli(p) r(l)=Bernoulli(p)
y ~ ( l ) = r ( l ) ⋅ y ( l ) \tilde{y}^{(l)} = r^{(l)}\cdot y^{(l)} y~(l)=r(l)y(l)
Z i ( l + 1 ) = W i l + 1 ⋅ y ~ ( l ) + b i l + 1 Z_{i}^{(l+1)} = W_{i}^{l+1} \cdot \tilde{y}^{(l)} + b_{i}^{l+1} Zi(l+1)=Wil+1y~(l)+bil+1
y i ( l + 1 ) = f ( z i ( l + 1 ) ) y_{i}^{(l+1)} = f(z_{i}^{(l+1)}) yi(l+1)=f(zi(l+1))

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/75149
推荐阅读
相关标签
  

闽ICP备14008679号