当前位置:   article > 正文

论文精读之Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)

论文精读之Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)

论文地址:

https://arxiv.org/pdf/1506.01497.pdf​arxiv.org/pdf/1506.01497.pdficon-default.png?t=N6B9https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1506.01497.pdf

1 Introduction

SPPnet和Fast R-CNN等技术的进步缩短了检测网络的运行时间,但候选区域计算的瓶颈仍得不到解决。论文提出了一种全新的端到端的构建候选区域的方法。论文引入了新型区域建议网络(RPN):一个卷积层将每个特征图编码为一个较短(例如256-d)的特征向量,另一个卷积层则在每个特征图输出置信度和相对于该位置的各种比例和长宽比的k个区域候选框的边界(k=9是一个典型值)

2 Region Proposal Networks

区域建议网络(RPN)将任意大小的图像作为输入,然后输出一组矩形区域建议每个建议都有一个得分。论文用一个全卷积网络来模拟这一过程。由于最终目标是与Fast R-CNN共享计算,因此假设这两个网络共用一组卷积层。在实验中,论文研究了拥有5个可共享卷积层的Zeiler和Fergus模型(ZF),以及拥有13个可共享卷积层的 Simonyan和Zisserman模型(VGG)。

为了生成候选区域,论文在最后一个共享卷积层输出的卷积特征图上滑动一个小型网络。 每个滑动窗口都被映射为一个低维向量(ZF 为 256-d,VGG 为 512-d)。该向量被送入两个全连接层--回归层(reg)分类层(cls)。论文中n=3,因为输入图像的有效感受野很大(ZF 和 VGG 分别为 171 和 228 像素)。由于网络以滑动窗口的方式运行,因此所有空间位置都共享全连接层。该架构通过一个 n × n 的卷积层和两个同级的 1 × 1 卷积层(分别用于 reg 和 cls)来实现。ReLU应用于 n × n 卷积层的输出。

在每个滑动窗口,同时预测 k 个候选区域,因此 reg 层有 4k 个输出(包含坐标信息)。cls 层输出 2k 个分数,用于估算每个区域的对象/非对象概率。每个锚点都以相关滑动窗口为中心,并与比例和长宽比相关联,论文使用了 3 种尺度和 3 种长宽比,得出 k = 9 个锚点。在每个滑动位置。对于大小为 W ×H(通常为 2,400)的特征图,有 W*H*k 锚点总数。论文的方法的一个重要特性是,它具有平移不变性,无论是在锚点和计算相关联的区域的时候。

在训练 RPN 时,论文为每个锚点分配一个二元类标签(是或不是)。论文为两种锚点分配正标签:如果一个锚点与任意一个真实框的IoU重叠度高于0.7,则将其视为正样本,并分配正标签。而对于与某个地面真实框具有最高IoU重叠度的锚点,也将被视为正样本,并分配正标签。负标签设置为与所有真实目标框的IoU 比率低于0.3的锚点。没有正负标签的锚点不会对训练目标产生影响。

损失函数的设置与Fast R-CNN类似,需要注意的点是在之前的方法中,边界框回归是在从任意大小的区域池化的特征上进行的,并且回归权重是共享的。这意味着回归器被设计为适应不同尺寸的目标框,并在不同的区域上进行回归。

而在本文的方法中,采用了一种不同的方式。论文使用的回归特征在特征图上具有相同的空间尺寸,即n × n。为了适应不同的尺度,论文学习一组k个边界框回归器每个回归器负责一个尺度和一个宽高比。这意味着每个回归器都专门负责预测特定尺度和宽高比的边界框,而回归器之间不共享权重。这种设计使得论文的方法可以更好地适应不同尺度的目标框,并在预测边界框时具有更好的灵活性和准确性。即使特征的尺寸是固定的,仍然能够预测出不同尺寸的边界框。

论文中正负锚点的抽样比例最高为 1:1。如果图像中的正样本少于128个,就用负样本填充。

为了让两个网络工程共享卷积层,而不是学习两个独立的网络,论文提出一种四步训练算法,通过交替优化来学习 共享特征。

第一步,如上所述训练 RPN。该网络使用 ImageNet 预先训练的模型进行初始化,并针对区域建议任务进行端到端微调。在第二步中,我们利用第一步 RPN 生成的区域建议,通过Fast R-CNN 训练一个单独的检测网络。该检测网络也由 ImageNet 预训练模型初始化。此时 ,两个网络不共享卷积层。在第三步中,论文使用检测网络来初始化 RPN 训练,但会固定共享的卷积层(此时两个网络的Deep ConvNet是相同的),只微调 RPN 独有的卷积层。现在,两个网络共享卷积层。最后,在固定共享卷积层的基础上,再对Fast R-CNN 的全连接层进行微调。这样,两个网络就共享了相同的卷积层,形成了一个统一的网络

为了减少冗余,论文根据候选区域的分数对其采用非最大抑制(NMS)。将 NMS 的 IoU 阈值固定为 0.7,这样每幅图像就有大约 2k 个候选区域

5 Conclusion

论文提出了区域建议网络 (RPN),用于高效、准确地生成区域建议。通过与下游检测网络共享卷积特征,区域建议步骤几乎不需要成本。论文的方法使基于深度学习的统一物体检测系统能以 5-17 fps 的速度运行。学习到的 RPN 还能提高区域建议的质量,从而提高整体物体检测的准确性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/114044
推荐阅读
相关标签
  

闽ICP备14008679号