赞
踩
GoogleNet主要是Inception,对图像以多种卷积训练,并组合通道数;
VGGNet主要是关注深度,利用小卷积核来增加深度;
ResNet主要是残差,反向传播时保留部分损失函数,使得网络深度能进一步增加。
Very Deep Convolutional Networks For Large-Scale Image Recognition
input: 224*224
preprocessing: 减平均RGB值
然后进行一系列卷积:
像素填充:1
卷积核:3×3、1×1
卷积步长:1
池化层:最大池化,2×2,步长2
且不是所有卷积层后面都有池化层
3个全连接层:
前两个:4096通道
后一个:1000class
soft-max层
隐藏层激活函数:ReLU
ps: 没有局部响应归一化层。AlexNet中LRN 局部响应归一化的理解
通过使用具有动量的小批量梯度下降(基于反向传播)优化多项式逻辑回归目标来进行的。
Ps:momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为
x ← x − α ∗ d x x\leftarrow x-\alpha\ast dx x←x−α∗dx
x
x
x沿负梯度方向下降。而带momentum项的SGD则写生如下形式:
v
=
β
∗
v
−
a
∗
d
x
v=\beta \ast v -a\ast dx
v=β∗v−a∗dx
x
←
x
+
v
x \leftarrow x+v
x←x+v
β
\beta
β即momentum系数,通俗的理解上面式子就是,如果上一次的momentum(即
v
v
v)与这一次的负梯度方向是相同的,那这次下降的幅度就会加大,所以这样做能够达到加速收敛的过程。
批量大小:256,向量:0.9
PS:批量:一次训练的样本数目
训练的调整:权值衰减(weight decay,正向项前的系数,正则项指示模型复杂度)。weight decay的作用 是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。
丢弃正则化(dropout Regularization):对于开始的两个全连接层
思想:对于网络的每一层,随机的丢弃一些单元。
1. 每个特征都可能被丢弃,所以整个网络不会偏向于某个特征(权值过大),减小过拟合
2. 网络变小小,减小了过拟和
学习率初始设置为 1 0 − 2 10^{-2} 10−2,在验证集精度停止提高时,降低10倍。减少3次
370K次迭代(itertion)、74时期(epochs)
PS: itertion = 一个正向通过 + 一个反向通过
epoch = 所有训练样本一个正向传递 + 一个反向传递
weight的初始化:首先,训练configuration A , A浅的可以采用随机初始化。其他网络的初始化用A的前4个卷积层、后三个FC层,其他层随机初始化。
Training image size:
固定S大小:single-scale training
S=384,用S=256训练出的权重初始化。用 1 0 − 3 10^{-3} 10−3学习率。
范围随机采样:multi-scale training
在测试时,给定一个经过训练的ConvNet和一个输入图像,它按以下方式分类。 首先,它被各向同性地重新标度为预定义的最小图像侧,Q(或称为测试尺度)。 Q不一定等于S( 对于每个S使用多个Q值会提高性能)。 然后,网络被密集地应用于重新标度的测试图像。也就是说,全连接层首先被转换为卷积层(第一FC层转换为7×7卷积层,最后两个FC层转换为1×1卷积层)。 然后将得到的全卷积网应用于整个(未裁剪)图像。 结果是一个类分数图(class score map),其通道数等于类的数目,而且还有一个可变的空间分辨率(spatial resolution),取决于输入的图像大小。 最后,为了获得图像的类分数的固定大小向量,对类分数映射进行空间平均(求和)。 研究者还通过对图像的水平翻转来增强测试集;对原始图像和翻转图像的Soft-max类后验进行平均,以获得图像的最终分数。
理解:
在3.2testing作者提出了一种策略,即使用卷积层代替全连接层(具体理解可参考FCN网络,讲的十分详细),这种策略不限制输入图片的大小,最终输出结果是一个w*h*n的score map。其中,w和h与输入图片大小有关,而n与所需类别数相同。而将w*h个值进行sum pool(对每一个channel进行求和),即可得到在某一类上的概率。这种方法叫做dense evaluation。
另一种策略就是经常使用的卷积层+全连接层。通过将测试图片缩放到不同大小Q,Q可以不等于S(训练时图片大小)。在QQ图片上裁剪出多个SS的图像块,将这些图像块进行测试,得到多个1*n维的向量。通过对这些向量每一纬求平均,得到在某一类上的概率。这种方法叫做multi-crop。
作者认为,这两种方法的差别在于convolution boundary condition不同:dense由于不限制图片大小,可以利用像素点及其周围像素的信息(来自于卷积和池化),包含了一些上下文信息,增大了感受野,因此提高分类的准确度;而multi-crop由于从图片上裁剪再输网络,需要对图像进行padding,因此增加了噪声。
但是由于multi-crop需要裁剪出大量图片,每张图片都要单独计算,增加了计算量,并且准确率提升不大。在论文4.3中可以看出multi-crop比dense在top-1错误率上提升只有0.2.
we will focus on an efficient deep neuralnetwork architecture for computer vision, codenamed Inception。
mobile and embedded computing
CNN standard structure:
used a series of fixed Gabor filters of different sizes to handle multiple scales.
多尺度!!!!
1 × 1 1\times1 1×1卷积核:用于降维
RCNN:将整个检测问题分为两个子问题:利用颜色和纹理等低级线索,以与类别无关的方式生成对象位置建议,以及使用CNN分类器在这些位置识别对象类别。
定位与检测--------->googlenet 尝试了多框预测、更好的边界框建议分类
增加网络深度、宽度的坏处:
解决方法:引入稀疏性,用稀疏层替换全连接层,甚至卷积层
通过分析前一层激活的相关统计,并聚类具有高度相关输出的神经元,可以逐层构建最优网络拓扑。
卷积是通过一系列与前层区块的密集连接来实现的,文献【11】发表后,卷积神经网通常在特征维度中使用随机的稀疏的连接表,以打破对称性,提高学习水平,然而,根据文献【9】这种趋势会倒退回全连接模式,以便更好滴使用并行计算。
Inception的体系结构的主要设计思路是要在一个卷积视觉网络中寻找一个局部最优的稀疏结构,这个结构需要能够被可获得的密集组件(dense component)覆盖和近似表达。
Inception就是把多个卷积或池化操作,放在一起组装成一个网络模块,设计神经网络时以模块为单位去组装整个网络结构。
由于参数量太大,加入 1 × 1 1\times1 1×1卷积核,减少通道数,还有非线性操作。
整体网络结构设计
(1)GoogLeNet采用了模块化的结构(Inception结构),方便增添和修改;
(2)网络最后采用了average pooling来代替全连接层,该想法来自NIN(Network in Network),事实证明这样可以将准确率提高0.6%。但是,实际在最后还是加了一个全连接层,主要是为了方便对输出进行灵活调整;
(3)虽然移除了全连接,但是网络中依然使用了Dropout ; (在avg pooling之后,FC之前)
(4)为了缓解梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度(辅助分类器Auxililary Classifier)。辅助分类器是将中间某一层的输出用作分类,并按一个较小的权重(0.3)加到最终分类结果中,这样相当于做了模型融合,同时给网络增加了反向传播的梯度信号。
原始输入的图像为224×224×3,接下来的是对各层进行更细致的解释:
deep residual learning 深度残差学习
一般CNN网络:输入为X,某一有参网络层设为H,学习 x → H ( x ) x\rightarrow H(x) x→H(x)的映射
ResNet:学习输入、输出之间的残差,即
H
(
x
)
−
x
H(x)-x
H(x)−x。X -> (H(X) - X) + X。其中X这一部分为直接的identity mapping,而H(X) - X则为有参网络层要学习的输入输出间残差。
增加网络层次时,减少损失函数的衰减、损失。
用F(X, Wi)来表示残差映射,那么输出即为:Y = F(X, Wi) + X
建立新的identity mapping函数,从而可以使得处理后的输入X与输出Y的通道数目相同即Y = F(X, Wi) + Ws*X
两种identity mapping的方式。一种即简单地将X相对Y缺失的通道直接补零从而使其能够相对齐的方式,另一种则是通过使用1x1的conv来表示Ws映射
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。