赞
踩
随着神经网络层数的加深,有不可避免的带来过拟合和计算量增大的困扰,谷歌团队为了减少计算量和避免过拟合,提出了Inception模型,也叫作 GoogLeNet。并在2014年,ImageNet挑战赛(ILSVRC14)中,GoogLeNet获得了第一名。GoogLeNet模型结构的特点是网络层数更深了。随着谷歌团队的研究,Inception历经了V1、V2、V3、V4等多个版本的发展
Inception 以降低参数量为目的,设计了一个稀疏网络结构,但是能够产生稠密的数据,既能增加神经网络表现,又能保证计算资源使用效率的网络结构。
GoogleNet虽然降低了维度,计算更加容易了,但是缺点是每一层的卷积都是上一层的输出所得来的,这就使最后一层的卷积所需要的的计算量变得非常大,因此谷歌对其进行了改善,有了正式版的 Inception-V1模型。
Inception V1模块提出可以使网络变宽,在保证模型质量的前提下,减少参数个数,提取高维特征。
我们网络中接受域的大小为 224×224,采用均值减法的 RGB 颜色通道。
“#3×3 reduce”和“#5×5 reduce”代表在3×3和5×5卷积之前使用的reduce层中1×1过滤器的数量。
在池项目列中的内置最大池化之后,可以看到投影层中 1×1 过滤器的数量。所有这些减少/投影层也使用整流线性激活。
鉴于网络相对较大的深度,以有效方式将梯度传播回所有层的能力是一个问题。
一个有趣的见解是,相对较浅的网络在此任务上的强大性能表明,网络中间的层产生的特征应该具有很强的辨别力。
通过添加连接到这些中间层的辅助分类器,我们希望在分类器的较低阶段鼓励区分,增加传播回来的梯度信号,并提供额外的正则化。
这些分类器采用较小卷积网络的形式,置于 Inception (4a) 和 (4d) 模块的输出之上。
在训练期间,它们的损失以折扣权重添加到网络的总损失中(辅助分类器的损失权重为 0.3)。在inference time,这些辅助网络被丢弃。
侧边额外网络的确切结构,包括辅助分类器,如下:
除了本文前面提到的训练技术外,我们在测试过程中还采用了一套技术以获得更高的性能,我们将在下面详细说明。
GoogLeNet 用于检测的方法类似于 R-CNN,但增加了 Inception 模型作为区域分类器。
此外,通过将选择性搜索方法与多框预测相结合,提高了region proposal ,以提高对象边界框召回率。
为了减少false positives的数量,超像素大小增加了 2 倍。这将来自选择性搜索算法的proposals 减半。
我们添加了来自 multi-box 的 200 个region proposals,总共占 [6] 使用的提案的 60%,同时将覆盖率从 92% 增加到 93%。减少覆盖范围增加的region proposals数量的总体效果是单个模型案例的平均精度提高了 1%。
最后,我们在对每个区域进行分类时使用 6 个 ConvNet 的集合,将结果从 40% 提高到 43.9%。
请注意,与 R-CNN 相反,由于时间不够,我们没有使用边界框回归。
我们在表 4 中报告了官方分数和每个团队的常用策略:使用外部数据、集成模型或上下文模型。
外部数据通常是 ILSVRC12 分类数据,用于预训练模型,然后在检测数据上进行细化。
一些团队还提到了本地化数据的使用。
由于定位任务边界框的很大一部分不包含在检测数据集中,因此可以使用此数据预训练通用边界框回归器,就像使用分类进行预训练一样。 GoogLeNet 没有使用本地化数据进行预训练。
在表 5 中,我们仅使用单一模型比较结果。
表现最好的模型是 Deep Insight,令人惊讶的是,在 3 个模型的集成中仅提高了 0.3 个百分点,而 GoogLeNet 使用集成获得了明显更强的结果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。