赞
踩
论文地址:https://arxiv.org/abs/1712.00726v1https://arxiv.org/abs/1712.00726v1
紫色:要解决的问题或发现的问题
红色:重点内容
棕色:关联知识,名称
绿色:了解内容,说明内容
在对象检测中,需要通过联合(IoU)阈值来定义正负。用低 IoU 阈值训练的对象检测器,例如0.5,通常会产生噪声检测。然而,检测性能往往会随着 Io U 阈值的增加而下降。造成这种情况的主要因素有两个:1) 训练期间的过度拟合,由于正样本呈指数消失,以及 2) 推断 - 检测器最佳的 IoUs 与输入假设的 IoUs 之间的时间不匹配。提出了一种多阶段目标检测架构 Cascade R-CNN 来解决这些问题。它由一系列检测器组成,这些检测器通过增加 IoU 阈值进行训练,以便对接近的误报具有依次更高的选择性。检测器是逐步训练的,利用检测器的输出是训练下一个更高质量检测器的良好分布的观察。逐步改进假设的重采样保证了所有检测器都有一组大小相等的正样本,从而减少了过拟合问题。在推理中应用相同的级联程序,使假设与每个阶段的检测器质量之间更加匹配。 Cascade R - CNN 的一个简单实现被证明在具有挑战性的 COCO 数据集上超越了所有单模型对象检测器。实验还表明,Cascade R - CNN 广泛适用于检测器架构,独立于基线检测器强度实现一致的增益。代码将在 https://github.com/zhaoweicai/cascade-rcnn 上提供
目标检测是一个复杂的问题,需要解决两个主要任务。首先,检测器必须解决识别问题,区分前景对象和背景,并为它们分配适当的对象类别标签。其次,检测器必须解决定位问题,将准确的边界框分配给不同的对象。这两者都特别困难,因为检测器面向许多“关闭”误报,对应于“关闭不正确”的边界框。检测器必须在抑制这些接近的误报的同时找到真正的正例。
最近提出的许多目标检测器都基于两阶段 R-CNN 框架 [12、11、27、21],其中检测被视为结合了分类和边界框回归的多任务学习问题。与对象识别不同,需要联合交叉 (IoU) 阈值来定义正/负。然而,常用的阈值 u,通常 u = 0.5,对正样本结果的要求相当宽松。由此产生的检测器经常产生嘈杂的边界框,如图 1 (a) 所示。大多数人认为接近分错了的正样本的假设经常通过 IoU ≥ 0.5 测试。虽然在 u = 0.5 标准下组装的示例丰富多样,但它们很难训练能够有效拒绝接近误报的检测器。
在这项工作中,我们将假设的优劣定义为它与真实标签的 IoU,将检测器的优劣定义为用于训练它的 IoU 阈值 u。目标是研究迄今为止很少研究的学习高质量目标检测器的问题,其输出几乎没有误报,如图 1 (b) 所示。基本思想是单个检测器只能针对单个质量级别进行优化。这在成本敏感的学习文献 [7, 24] 中是已知的,其中接收器操作特性 (ROC) 的不同点的优化需要不同的损失函数。主要区别在于我们考虑了给定 IoU 阈值的优化,而不是误报率。
图 1 (c) 和 (d) 说明了这个想法,它们分别展示了使用 u = 0.5、0.6、0.7 的 Io U 阈值训练的三个检测器的定位和检测性能。定位性能被评估为输入提案的 Io U 的函数,检测性能作为 Io U 阈值的函数进行评估,如 COCO [20]。请注意,在图 1 (c) 中,每个边界框回归器在 Io U 的示例中表现最好,接近于检测器被训练的阈值。这也适用于检测性能,直至过拟合。图 1 (d) 显示,对于低 Io U 示例,u = 0.5 的检测器优于 u = 0.6 的检测器,在较高的 Io U 水平下表现不佳。通常,在单个 Io U 级别上优化的检测器不一定在其他级别上是最佳的。这些观察表明,更高质量的检测需要检测器与其处理的假设之间更紧密的质量匹配。一般来说,检测器只有在提供高质量的建议时才能具有高质量。
然而,要产生一个高质量的检测器,在训练期间仅仅增加 u 是不够的。事实上,如图 1 (d) 中 u = 0.7 的检测器所示,这会降低检测性能。问题在于,提议检测器的假设分布通常严重不平衡,朝向低质量。一般来说,强制更大的 Io U 阈值会导致正训练样本的数量呈指数级减少。这对于神经网络来说尤其成问题,众所周知,神经网络非常密集,并且使得“高 u”训练策略很容易过度拟合。另一个困难是检测器的质量与推理时测试假设的质量不匹配。如图 1 所示,高质量检测器仅对高质量假设是最佳的。当他们被要求处理其他质量水平的假设时,检测可能不是最理想的。
在本文中,我们提出了一种新的检测器架构 Cascade R - CNN,可以解决这些问题。它是 R-CNN 的多阶段扩展,其中更深入级联的检测器阶段依次对接近的误报更具选择性。级联的 R - CNN 阶段是按顺序训练的,使用一个阶段的输出来训练下一个阶段。
这是因为观察到回归器的输出 Io U 几乎总是比输入 Io U 好。这个可以在图 1(c)中观察
,其中所有图都在灰线上方。这表明用某个 Io U 阈值训练的检测器的输出是训练下一个更高 Io U 阈值的检测器的良好分布。这类似于对象检测文献中常用的组合数据集的增强方法 [31, 8]。主要区别在于 Cascade R - CNN 的重采样过程并不旨在挖掘困难样本。相反,通过调整边界框,每个阶段的目标是找到一组好的接近误报来训练下一个阶段。当以这种方式操作时,一系列适应越来越高的 Io Us 的检测器可以解决过拟合问题,从而得到有效的训练。在推理时,应用相同的级联过程。逐步改进的假设与每个阶段不断提高的检测器质量更好地匹配。如图 1 (c) 和 (d) 所示,这可以实现更高的检测精度。
Cascade R - CNN 的实现和端到端训练非常简单。我们的结果表明,在具有挑战性的 COCO 检测任务 [20] 上,特别是在更高质量的评估指标下,一个没有任何花里胡哨的 vanilla 实现大大超过了所有以前最先进的单模型检测器.此外,Cascade R-CNN 可以使用任何基于 R-CNN 框架的两阶段目标检测器构建。我们观察到一致的收益(2∼4 个点),计算量略有增加。该增益与基线对象检测器的强度无关。因此,我们相信这种简单而有效的检测架构对于许多对象检测研究工作可能是有意义的。
由于 R-CNN [12] 架构的成功,通过结合提议检测器和区域分类器的检测问题的两阶段公式化在最近已成为主导。为了减少 R-CNN 中的冗余 CNN 计算,SPP-Net [15] 和 Fast-RCNN [11] 引入了区域特征提取的思想,显着加快了整体检测器的速度。后来,Faster - RCNN [27] 通过引入区域建议网络 (RPN) 实现了进一步的加速。该架构已成为领先的对象检测框架。最近的一些作品将其扩展到解决各种细节问题。例如,R-FCN [4] 提出了高效的 region-wise 全卷积,没有精度损失,避免了 Faster-RCNN 的大量 region-wise CNN 计算;而 MS-CNN [1] 和 FPN [21] 在多个输出层检测提议,以减轻 RPN 感受野与实际对象大小之间的尺度不匹配,用于高召回率提议检测。
或者,单阶段目标检测架构也变得流行,主要是由于它们的计算效率。这些架构接近经典的滑动窗口策略 [31, 8]。 YOLO [26] 通过将输入图像转发一次来输出非常稀疏的检测结果。当使用高效的骨干网络实现时,它可以实现具有公平性能的实时对象检测。SSD [23] 以类似于 RPN [27] 的方式检测对象,但使用不同分辨率的多个特征图来覆盖各种尺度的对象。这些架构的主要限制是它们的精度通常低于两级检测器。最近,Retina Net [22] 被提出来解决密集物体检测中极端的前景 - 背景类别不平衡问题,取得了比最先进的两阶段目标检测器更好的结果。还提出了多阶段目标检测的一些探索。多区域检测器 [9] 引入了迭代边界框回归,其中多次应用 R-CNN,以产生更好的边界框。 CRAFT [33] 和 Attractio Net [10] 使用多阶段程序生成准确的提案,并将它们转发到 Fast-RCNN。 [19, 25] 在目标检测网络中嵌入了 [31] 的经典级联架构。 [3] 交替迭代检测和分割任务,例如分割。
在本文中,我们扩展了 Faster-RCNN [27, 21] 的两阶段架构,如图 3 (a) 所示。第一阶段是提议子网络(“H0”),应用于整个图像,以产生初步检测假设,称为目标提议。在第二阶段,这些假设然后由感兴趣区域检测子网络(“H1”)处理,表示为检测头。最终分类分数(“C”)和边界框(“B”)分配给每个假设。我们专注于对多阶段检测子网络进行建模,并采用但不限于 RPN [27] 进行提案检测。
边界框 b = (b x , b y , b w , b h ) 包含图像块 x 的四个坐标。边界框回归的任务是使用回归器 f(x, b) 将候选边界框 b 回归到目标边界框 g。这是从训练样本 { g i , b i } 中学习的,以最小化边界框风险。
其中 L loc 是 R - CNN [12] 中的 L 2 损失函数,但在 Fast - RCNN [11] 中更新为平滑的 L 1 损失函数。为了鼓励对尺度和位置保持回归不变,L loc 对距离向量 Δ = (δ x , δ y , δ w , δ h ) 进行操作 被定义为
由于边界框回归通常对 b 进行微调,因此 (2) 的数值可能非常小。因此,(1)的风险通常远小于分类风险。为了提高多任务学习的有效性,通常将 Δ 归一化为均值 和方差,即 δ x 被替换为 δ x' = (δ x - µ x )/σ x 。这在文献中被广泛使用 [27, 1, 4, 21, 14]。
图 2. 不同级联阶段的顺序 Δ 分布(无归一化)。红点是使用增加Io U阈值时的异常值,去除异常值后得到统计数据。
一些文章 [9, 10, 16] 认为 f 的单个回归步骤不足以准确定位。相反, f 被迭代地应用,作为后处理步骤
细化边界框 b.这称为迭代边界框回归,表示为迭代 B 框。它可以使用图 3 (b) 的推理架构来实现,其中所有头都相同。然而,这个想法忽略了两个问题。首先,如图 1 所示,在 u = 0.5 时训练的回归器 f 对于更高 Io Us 的假设是次优的。它实际上会降低大于 0.85 的 Io U 的边界框。其次,如图 2 所示,边界框的分布在每次迭代后都会发生显着变化。虽然回归量对于初始分布是最优的,但在此之后可能会非常不理想。由于这些问题,迭代 的B Box 需要大量的人工工程,以提议框积累、框投票等形式 [9,10,16],并且具有一些不可靠的收益。通常,除了两次应用 f 之外没有任何好处。
分类器是一个函数 h(x),它将图像块 x 分配给 M + 1 个类别之一,其中类别 0 包含背景和其余要检测的对象。 h(x) 是对类的后验分布的 M + 1 维估计,即 h k (x) = p(y = k | x),其中 y 是类标签。给定一个训练集 (x i , y i ),通过最小化分类风险来学习
其中 L cls 是经典的交叉熵损失。
图 3. 不同框架的架构。 “I”是输入图像,“conv”是主干卷积,“pool”是区域特征提取,“H”是网络头,“B”是边界框,“C”是分类。 “B0”是所有架构中的提议框。
由于边界框通常包括一个对象和一定数量的背景,因此很难确定检测是肯定的还是否定的。这通常由 Io U 度量来解决。如果 Io U 高于阈值 u,则该补丁被视为该类的示例。因此,假设 x 的类标签是 u 的函数,
其中 g y 是真实标签对象 g 的类别标签。这个 Io U 阈值 u 定义了检测器的质量。
目标检测具有挑战性,因为无论阈值如何,检测设置都是高度对抗性的。当 u 高时,正样本包含较少的背景,但很难匹配足够的正例训练样本。当 u 较低时,可以获得更丰富、更多样化的正训练集,但经过训练的检测器几乎没有动力拒绝接近的误报。一般来说,要求单个分类器在所有 Io U 级别上均匀地执行是非常困难的。在推理时,由于提议检测器产生的大多数假设,例如RPN [27] 或选择性搜索 [30] 质量低,检测器必须对低质量假设更具判别力。这些相互冲突的要求之间的标准折衷方案是确定 u = 0.5。然而,这是一个相对较低的阈值,导致大多数人认为接近误报的低质量检测,如图 1 (a) 所示。
一个简单的解决方案是开发一个分类器集合,具有图 3 (c) 的架构,用损失优化针对不同的质量水平,
其中 U 是一组 IoU 阈值。这与 [34] 的积分损失密切相关,其中 U = { 0.5, 0.55,····, 0.75 } 旨在拟合 COCO 挑战的评估指标。根据定义,分类器需要在推理时进行集成。该解决方案未能解决 (6) 的不同损失对不同数量的正样本数量起作用的问题。
图4:训练样本的IoU直方图,在第一阶段的分部是RPN的输出。红色数字是正样本数百分比高于相应的 Io U 阈值。
如图 4 的第一个图所示,正样本集随着 u 迅速减少。这尤其成问题,因为高质量的分类器容易过拟合。此外,这些高质量的分类器需要在推理时处理压倒性的低质量提议框,而它们并未针对这些提议框进行优化。由于所有这些,(6) 的集成未能在大多数质量级别上实现更高的精度,并且该架构与图 3(a) 的架构相比几乎没有增益。
在本节中,我们介绍了图 3 (d) 中提出的 Cascade RCNN 对象检测架构。
如图 1 (c) 所示,很难要求单个回归器在所有质量级别上完全一致地执行。受级联姿势回归 [6] 和人脸对齐 [2, 32] 的启发,可以将困难的回归任务分解为一系列更简单的步骤。在 Cascade R - CNN 中,它被框定为级联回归问题,具有图 3 (d) 的架构。这依赖于一系列专门的回归器
其中 T 是级联级的总数。请注意,级联中的每个回归量 f t 都经过 w.r.t 优化。到达相应阶段的样本分布 { b ^t },而不是 { b ^1 } 的初始分布。这种级联逐步改进了假设。
它在几个方面与图 3 (b) 的迭代 B Box 架构不同。首先,虽然迭代 B 框是用于改进边界框的后处理过程,但级联回归是一个重采样过程,它改变了不同阶段要处理的假设的分布。其次,因为它同时用于训练和推理,所以训练和推理分布之间没有差异。第三,针对不同阶段的重采样分布优化了多个专门的回归量{ f T , f T -1 , ··· , f 1 }。这与 (3) 中的单个 f 相反,后者仅对初始分布是最优的。这些差异可以实现比迭代 B 框更精确的定位,无需进一步的人工工程。
如第 3.1 节所述,(2) 中的 Δ = (δ x , δ y , δ w , δ h )需要通过其均值和方差进行归一化以进行有效的多任务学习。在每个回归阶段之后,这些统计数据将按顺序演变,如图 2 所示。在训练中,相应的统计数据用于对每个阶段的 ∆ 进行归一化。
如图 4 左侧所示,初始假设的分布,例如RPN 提案严重倾向于低质量。这不可避免地会导致对更高质量分类器的无效学习。 Cascade R - CNN 通过依赖级联回归作为重采样机制来解决这个问题。这是因为在图 1 (c) 中所有曲线都在对角灰线之上,即针对某个 u 训练的边界框回归器倾向于产生更高 Io U 的边界框。因此,从一组示例 (x i , b i ),级联回归连续重新采样较高 Io U 的示例分布 (x i ′ , b i ′ )。以这种方式,即使当检测器质量(Io U 阈值)增加时,也可以将连续阶段的正样本集合保持在大致恒定的大小。这在图 4 中进行了说明,其中在每个重采样步骤之后,分布更倾向于高质量的示例。两个后果随之而来。首先,没有过度拟合,因为各个级别的示例都很丰富。其次,更深阶段的检测器针对更高的 Io U 阈值进行了优化。请注意,通过增加 Io U 阈值顺序移除一些异常值,如图所示在图 2 中,启用了经过更好训练的专用检测器序列。
在每个阶段 t,R-CNN 包括一个分类器 h t 和一个针对 Io U 阈值 u^t 优化的回归器 f t ,其中 u^t > u^t−1 。这是通过最小化损失来保证的
当 G 是 x^t 的 ground truth 对象,λ = 1 是权衡系数,[·] 是指示函数,y^t 是 x^t 给定 u^t 的标签通过(5)。
与(6)的积分损失不同,这保证了一系列经过有效训练且质量不断提高的检测器。在推理过程中,假设的质量通过应用相同的级联程序依次提高,并且仅需要更高质量的检测器对更高质量的假设进行操作。这可以实现高质量的对象检测,如图 1 (c) 和 (d) 所示。
Cascade R - CNN 在 MS - COCO 2017 [20] 上进行了评估,其中包含 ∼118k 图像用于训练,5k 用于验证(val)和 ∼20k 用于没有提供注释的测试(test - dev)。 COCO 风格的平均精度 (AP) 以 0.05 的间隔在从 0.5 到 0.95 的 Io U 阈值上平均 AP。这些评估指标衡量各种质量的检测性能。所有模型都在 COCO 训练集上进行训练,并在 val 集上进行评估。最终结果也在测试 - 开发集上报告。
为简单起见,所有回归量都与类无关。 Cascade R - CNN 中的所有级联检测阶段都具有相同的架构,即基线检测网络的头部。总的来说,Cascade R-CNN 有四个阶段,一个 RPN 和三个用于检测 U = { 0.5, 0.6, 0.7 } ,除非另有说明。第一检测阶段的采样遵循 [11, 27]。在接下来的阶段,重采样是通过简单地使用前一阶段的回归输出来实现的,如第 4.2 节所示。除了标准的水平图像翻转外,没有使用数据增强。推理是在单个图像尺度上进行的,没有进一步的花里胡哨。所有基线检测器都使用 Caffe [18] 在相同的代码库上重新实现,以进行公平比较。
为了测试 Cascade R - CNN 的多功能性,我们使用三种流行的基线检测器进行了实验:Faster - RCNN 与主干 VGG - Net [29]、R - FCN [4] 和 FPN [21] 与 Res Net 主干 [16] .这些基线具有广泛的检测性能。除非另有说明,否则使用它们的默认设置。使用端到端训练代替多步训练。
图 5.(a) 是单独训练的检测器的检测性能,具有自己的提议(实线)或 Cascade R - CNN 阶段提议(虚线),(b)是通过向提议集添加基本事实。
图 6. 所有 Cascade R - CNN 检测器在所有级联阶段的检测性能。
图 7. (a) 是定位比较,(b) 是整体损失检测器中各个分类器的检测性能。
Faster - RCNN:网络头有两个全连接层。为了减少参数,我们使用 [13] 来修剪不太重要的连接。每个全连接层保留 2048 个单元,并删除了 dropout 层。训练以 0.002 的学习率开始,在 60k 和 90k 迭代时减少 10 倍,并在 2 个同步的 GPUs 上停止 100k 迭代,每个 GPUs 每次迭代包含 4 个图像。每张图像使用了 128 个 RoIs。
R - FCN:R - FCN 在 Res Net 中添加了卷积、边界框回归和分类层。 Cascade R - CNN 的所有头部都有这种结构。没有使用在线硬负挖掘[28]。训练以 0.003 的学习率开始,在 160k 和 240k 次迭代时降低了 10 倍,并在 280k 次迭代时停止,在 4 个同步的 GP Us 上,每个人每次迭代持有一张图像。每张图像使用 256 个 Ro Is。
FPN:由于尚未公开 FPN 的源代码,我们的实现细节可能会有所不同。 RoI Align [14] 用于更强的基线。这表示为 FPN+,并用于所有消融研究。像往常一样,Res Net - 50 用于消融研究,Res Net101 用于最终检测。训练使用 0.005 的学习率进行 120k 次迭代,使用 0.0005 进行接下来的 60k 次迭代,在 8 个同步的 GPUs 上,每个迭代一次保存一张图像。每张图像使用 256 个 RoIs。
图 5 (a) 显示了三个单独训练的检测器的 AP 曲线,增加了 U = 的 Io U 阈值{ 0.5, 0.6, 0.7 } .u = 0.5 的检测器在低 Io U 水平上优于 u = 0.6 的检测器,但在更高水平上表现不佳。但是,u = 0.7 的检测器的性能不如其他两个。为了理解为什么会发生这种情况,我们在推理时改变了提议框的质量。图 5 (b) 显示了将真实边界框添加到建议集时获得的结果。虽然所有检测器都在改进,但 u = 0.7 的检测器增益最大,几乎在所有 Io U 级别上实现了最佳性能。
这些结果表明了两个结论。首先,u = 0.5 不是精确检测的好选择,只是对低质量提案更稳健。其次,高精度检测需要与检测器质量相匹配的假设。接下来,原始检测器提议被更高质量的 Cascade R - CNN 提议所取代(u = 0.6 和 u = 0.7 分别使用了第二和第三阶段提议)。图 5 (a) 还表明,当测试提议更接近检测器质量时,两个检测器的性能会显着提高。
在所有级联阶段测试所有 Cascade R - CNN 检测器产生了类似的观察结果。图 6 显示,当使用更精确的假设时,每个检测器都得到了改进,而更高质量的检测器具有更大的增益。例如,u = 0.7 的检测器对于第一阶段的低质量提议表现不佳,但对于更深级联阶段可用的更精确假设则要好得多。此外,即使使用相同的提议,图 6 的联合训练检测器也优于图 5 (a) 的单独训练检测器。这表明检测器在 Cascade R - CNN 框架内得到了更好的训练。
在本节中,我们将 Cascade R - CNN 与迭代 B box和积分损失检测器进行比较。迭代 B box是通过迭代应用 FPN+ 基线 3 次来实现的。积分损失检测器具有与级联 R - CNN 相同数量的分类头,具有U={0.5,0.6,0.7}.
表 1. 与迭代 B Box 和积分损失的比较。
表 2 Cascade R - CNN 的舞台表现。 1∼3 表示第三阶段提案中三个分类器的集合。
表 3. 消融实验。“Io U^”表示增加 Io U 阈值,“stat”利用顺序回归统计。
表 4. Cascade R - CNN 中阶段数的影响。
定位:级联回归和迭代B Box的定位性能在图7(a)中进行了比较。使用单个回归器会降低高 IoU 假设的定位。当迭代地应用回归器时,这种效果会累积,就像在迭代 B box中一样,性能实际上会下降。请注意迭代 B Box 在 3 次迭代后的性能非常差。相反,级联回归器在后期具有更好的性能,几乎在所有 Io U 级别上都优于迭代 B Box。
积分损失:积分损失检测器中所有分类器的检测性能,共享一个回归器,如图 7(b)所示。 u = 0.6 的分类器在所有 Io U 级别上是最好的,而 u = 0.7 的分类器是最差的。所有分类器的集合没有显示出可见的增益。
表 1 显示,迭代 B Box 和积分损失检测器都略微改进了基线检测器。级联 R - CNN 在所有评估指标上都具有最佳性能。低 Io U 阈值的增益是温和的,但对于较高的阈值则显着。
阶段方面的比较:表 2 总结了阶段表现。由于多阶段多任务学习的好处,第一阶段已经优于基线检测器。第 2 阶段大大提高了性能,第 3 阶段相当于第 2 阶段。这与积分损失检测器不同,其中较高的 IOU 分类器相对较弱。虽然前(后)阶段在低(高)Io U 指标方面表现更好,但所有分类器的集成总体上是最好的。
IoU 阈值:初步级联 R - CNN 使用相同的 Io U 阈值 u = 0.5 对所有头部进行训练。在这种情况下,这些阶段的不同之处仅在于它们接收的假设。每个阶段都使用相应的假设进行训练,即考虑图 2 的分布。表 3 的第一行显示级联在基线检测器上有所改进。这表明了为相应的样本分布优化阶段的重要性。第二行表明,通过增加阶段阈值 u,可以使检测器对接近的误报更具选择性,并专门针对更精确的假设,从而获得额外的收益。这支持了第 4.2 节的结论。
回归统计:利用图 2 中逐步更新的回归统计,有助于分类和回归的有效多任务学习。通过比较表 3 中带有/不带有它的模型,可以看出它的好处。学习对这些统计数据不敏感。
阶段数:阶段数的影响总结在表 4 中。添加第二个检测阶段显着提高了基线检测器。三个检测阶段仍然产生了不小的改进,但增加了第 4 阶段(u = 0.75)导致性能略有下降。但是请注意,虽然整体 AP 性能下降,但四级级联在高 IoU 级别下具有最佳性能。三级级联实现了最佳折衷。
5.5.与最先进技术的比较
基于 FPN+ 和 Res Net - 101 主干的 Cascade R - CNN 与表 5 中最先进的单模型目标检测器进行了比较。设置如第 5.1.1 节所述,但总共有运行了 280k 次训练迭代,学习率下降到 160k 和 240k 次迭代。 RoIs 的数量也增加到了 512。表 5 上的第一组检测器是单级检测器,第二组是两级,最后一组是多级(Cascade R-CNN为 3 级+RPN )。所有比较的最先进的检测器都是用 u = 0.5 训练的。
表5:先进单阶段模型在COCO测试集上的对比,带*的表示推理中使用了trick
表6.多个流行的目标检测基线的详细细节。在单Titan Xp GPU 上每张图片的速度报告
注意到我们的 FPN+ 实现优于原始 FPN [21],提供了非常强大的基线。此外,从 FPN+ 到 Cascade R - CNN 的扩展将性能提高了 ~4 个百分点。在所有评估指标下,Cascade R - CNN 也大大优于所有单模型检测器。这包括 2015 年和 2016 年 COCO 挑战赛获胜者的单模型条目(Faster R - CNN+++ [16] 和 G - RMI [17]),以及最近的 Deformable R - FCN [5]、Retina Net [22] ] 和 Mask R - CNN [14]。 COCO 上最好的多级检测器 Attractio Net [10] 使用迭代 B box进行提案生成。尽管 Attractio Net 中使用了许多增强功能,但原版 Cascade R - CNN 的性能仍然比它高出 7.1 个百分点。请注意,与 Mask R - CNN 不同,Cascade R - CNN 中没有利用分割信息。最后,vanilla 单模型 Cascade R-CNN 还超过了在 2015 年和 2016 年赢得 COCO 挑战赛(AP 分别为 37.4 和 41.6)1。
所有三个基线检测器的三级级联 R - CNN 比较如表 6 所示。所有设置如上,FPN+ 有 5.5 节的变化。
检测性能:同样,我们的实现优于原始检测器 [27、4、21]。尽管如此,Cascade R - CNN 在这些基线上持续改进了 2∼4 个点,与它们的强度无关。这些收益在 val 和 test - dev 上也是一致的。这些结果表明 Cascade R - CNN 广泛适用于检测器架构。
参数和时序:Cascade RCNN 参数的数量随着级联级数的增加而增加。基线探测器头的参数数量的增加是线性的。此外,由于与 RPN 相比,检测头的计算成本通常较小,因此 Cascade R-CNN 在训练和测试时的计算开销都很小。
在本文中,我们提出了一个多阶段目标检测框架 Cascade R-CNN,用于设计高质量的目标检测器。这种架构被证明可以避免训练时过度拟合和推理时质量不匹配的问题。 Cascade R - CNN 在具有挑战性的 COCO 数据集上的可靠且一致的检测改进表明,需要对各种并发因素进行建模和理解以推进对象检测。 Cascade R - CNN 被证明适用于许多对象检测架构。我们相信它对许多未来的目标检测研究工作很有用。
致谢 我们要感谢 Kaiming He 的宝贵讨论。
References
[1] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, pages 354–370, 2016. 2, 3
[2] X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by explicit shape regression. In CVPR, pages 2887–2894, 2012. 5
[3] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, pages 31503158, 2016. 3
[4] J. Dai, Y. Li, K. He, and J. Sun. R-FCN: object detection via region-based fully convolutional networks. In NIPS, pages 379–387, 2016. 2, 3, 5, 8
[5] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei.
Deformable convolutional networks. In ICCV, 2017. 8
[6] P. Doll´ar, P. Welinder, and P. Perona. Cascaded pose regression. In CVPR, pages 1078–1085, 2010. 5
[7] C. Elkan. The foundations of cost-sensitive learning. In IJCAI, pages 973–978, 2001. 2
[8] P. F. Felzenszwalb, R. B. Girshick, D. A. McAllester, and
D. Ramanan. Object detection with discriminatively trained part-based models. IEEE Trans. Pattern Anal. Mach. Intell., 32(9):1627–1645, 2010. 2, 3
[9] S. Gidaris and N. Komodakis. Object detection via a multiregion and semantic segmentation-aware CNN model. In ICCV, pages 1134–1142, 2015. 3
[10] S. Gidaris and N. Komodakis. Attend refine repeat: Active box proposal generation via in-out localization. In BMVC, 2016. 3, 8
[11] R. B. Girshick. Fast R-CNN. In ICCV, pages 1440–1448, 2015. 1, 2, 3, 5
[12] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, pages 580–587, 2014. 1, 2, 3
[13] S. Han, J. Pool, J. Tran, and W. J. Dally. Learning both weights and connections for efficient neural network. In NIPS, pages 1135–1143, 2015. 6
[14] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick. Mask r-cnn.
[18] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. B. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In MM, pages 675–678, 2014. 5
[19] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua. A convolutional neural network cascade for face detection. In CVPR, pages 5325–5334, 2015. 3
[20] T. Lin, M. Maire, S. J. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft COCO: common objects in context. In ECCV, pages 740–755, 2014. 2, 5
[21] T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and
S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 1, 2, 3, 5, 8
[22] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Doll´ar. Focal loss for dense object detection. In ICCV, 2017. 3, 8
[23] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. E. Reed,
C. Fu, and A. C. Berg. SSD: single shot multibox detector. In ECCV, pages 21–37, 2016. 3, 8
[24] H. Masnadi-Shirazi and N. Vasconcelos. Cost-sensitive boosting. IEEE Trans. Pattern Anal. Mach. Intell., 33(2):294–309, 2011. 2
[25] W. Ouyang, K. Wang, X. Zhu, and X. Wang. Learning chained deep features and classifiers for cascade in object detection. CoRR, abs/1702.07054, 2017. 3
[26] J. Redmon, S. K. Divvala, R. B. Girshick, and A. Farhadi.
You only look once: Unified, real-time object detection. In CVPR, pages 779–788, 2016. 3, 8
[27] S. Ren, K. He, R. B. Girshick, and J. Sun. Faster R-CNN:
towards real-time object detection with region proposal networks. In NIPS, pages 91–99, 2015. 1, 2, 3, 4, 5, 8
[28] A. Shrivastava, A. Gupta, and R. B. Girshick. Training region-based object detectors with online hard example mining. In CVPR, pages 761–769, 2016. 6
[29] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 5
[30] J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, and
A. W. M. Smeulders. Selective search for object recognition. International Journal of Computer Vision, 104(2):154–171, 2013. 4
[31] P. A. Viola and M. J. Jones. Robust real-time face detection. International Journal of Computer Vision, 57(2):137154, 2004. 2, 3
In ICCV, 2017. 3, 6, 8
[32] J. Yan, Z. Lei, D. Yi, and S. Li. Learn to combine multiple hypotheses for accurate face alignment. In ICCV Workshops, pages 392–396, 2013. 5
[15] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, pages 346–361, 2014. 2
[16] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016. 3, 5, 8
[17] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara,
A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and
K. Murphy. Speed/accuracy trade-offs for modern convolutional object detectors. CoRR, abs/1611.10012, 2016. 8
[33] B. Yang, J. Yan, Z. Lei, and S. Z. Li. CRAFT objects from images. In CVPR, pages 6043–6051, 2016. 3
[34] S. Zagoruyko, A. Lerer, T. Lin, P. O. Pinheiro, S. Gross,
S. Chintala, and P. Doll´ar. A multipath network for object detection. In BMVC, 2016. 4
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。