当前位置:   article > 正文

AlexNet卷积神经网络学习参考论文《ImageNet Classification with Deep Convolutional Neural NetWorks》_哪些期刊论文提到卷积神经网络展平层

哪些期刊论文提到卷积神经网络展平层

AlexNet是将LeNet的进一步发展,AlexNet使用的新技术特点:

1.使用ReLU作为CNN(Convolutional Neural Network)的激活函数;并与Sigmoid激活函数实现的效果进行比较,并解决了梯度弥散的问题。

在目前ReLU函数是最为常用的激活函数,softplus可最为ReLU函数的平滑版本。

relu定义为发F(x)=max(x,0);softplus定义为F(x)=log(1+exp(x))。

                                         

由图可知:在relu<0时硬饱和。因为x>0时导数为1,所以,relu能够在x>0时保持梯度不衰减,从而缓解梯度消失的问题,还可以更快地收敛,由于部分输入在硬饱和区域,导致对应的权重不可更新;

sigmoid函数:是传统神经网络中最常用的激活函数之一;S(x)=1/(1+e^(-x)),sigmoid函数的优点是,它的输出映射在(0,1)内,单调连续,适用于输出层,并求导较易;但容易产生梯度消失问题;由于软包和性的原因,使得函数导数值接近于0;

软饱和是指:激活函数S(x)在取值趋于无穷大时,它的一阶导数趋于0.硬饱和是指:当|x|>c,其中c为常数,S'(x)=0.Relu函数就是一类左侧硬包含激活函数。

梯度消失是指:在更新模型参数时采用链式求导法则反向求导,越往前梯度越小。最终的结果是到达一定深度后梯度对模型的更新没有任何影响;

            

论文中,Alex使用非线性激活函数Relu代替sigmoid,SGD的收敛速度比sigmoid/tanh快很多。

2.训练时使用Dropout,随机忽略一部分神经元,以避免模型过拟合;

过拟合问题:模型是在训练数据上学习分类,使其适应训练样本,而不是去学校一个能够通过数据进行分类的完全决策边界。

Dropout将DNN作为一个集成模型进行训练,然后取其所有值的均值,而不是单训练单个DNN;

将Dropout概率设置为p,以此来丢弃神经元,从而使其他神经元以1-p的概率进行保留;每一个神经元都有相同的概率被丢弃或者选择保留;即为:

H(x)=Wx+b,其中,输入x是一个di维度的数据,输出数据是dh维度;a(h)为一个激活函数。则模型的激活函数为F(h)=D o a(h);D =(x1,...,xdn)是一个dh维度的向量;

xi是一个伯努利变量;

伯努利随机变量具有以下概率质量分布:

F(k;p)=  p     if  k=1;

             1-p  if   k=0;          其中,k是可能输出的结果;

在第i个神经元上,Dropout的应用为:

Oi=xi(a((w1x1+b)+(w2x2+b)+.......+(wdixdx+b)))

=a((w1x1+b)+(w2x2+b)+.......+(wdixdx+b))     if    Xi=1;

           0                                                                           if    Xi=0;

其中p(Xi=0)=p;

在论文中,AlexNet是以0.5的概率将每个隐藏层神经元的输出设置为0。以这种方式抑制的神经元既不参加前向传播,也不参加反向传播。因此,每次输入一个样本,就相当于该神经网络尝试以一个新结构,这些结构之间共享权重。因为神经元之间不是相互依赖而存在的,从而降低了神经元复杂的互适应关系。

3.在CNN中使用重叠的最大池化。(1.Alex为避免平均池化的模糊化效果,2.提出使步长比池化核的尺寸小,从而使池化层的输出间会有重叠和覆盖,提升了特征的丰富性)

tf.nn.max_pool(value,ksize,strides,padding,name=None)

其中,参数value:为输入,通常情况下池化层在卷积层后,输入为feature map,即为[batch, height, width,]

参数ksize,为池化窗口的大小,参数 strides为窗口滑动步长;参数padding可以取“valid"或者”SAME“

4.LRN(local responce normalization)规范化层的使用,GPU实现;局部响应归一化层

对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力;

5.数据增强;增加训练数据是避免过拟合的方法,并能提高算法的准确率

(1).水平转换图像;

(2).从原始图像(大小为256*256)随机地平移变换(crop)出一些图像(224*224)

(3).给图像增加一些随机的光照(彩色变换,颜色抖动)

AlexNet结构图:

                              

在AlexNet中有8个层(不包括池化层和LRN层),前5层为卷积层,后3层为全连接层;

1.最后一层有1000类输出的Softmax层用作分类;

2.LRN层在第1卷积层及第2卷积层后;

3.最大池化层在两个LRN层及最后一个卷积层后;

4.ReLU激活函数在每一层的后面;

第一个卷积层的卷积核尺寸为11*11,步长为4,有96个卷积核;然后为LRN层;接着为3*3的最大池化层,步长为2;接下来卷积核为5*5或者3*3,步长为1;而最大池化层仍然为3*3,步长为2;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/116414
推荐阅读
相关标签
  

闽ICP备14008679号