赞
踩
Shu Liu†Xiaojuan Qi†Jianping Shi♭Hong Zhang†Jiaya Jia††The Chinese University of Hong Kong ♭SenseTime Group Limited{sliu, xjqi, hzhang, leojia}@cse.cuhk.edu.hk shijianping@sensetime.com
原文链接:http://jiaya.me/archive/papers/mpa_cvpr16.pdf
作者主页:http://jiaya.me/research/
摘要
针对同时检测和分割 (SDS) 问题,提出了一种基于中间层补丁的检测和分割框架。我们设计了一个统一的可训练的补丁网络,然后用一个快速有效的补丁聚合算法来推断对象实例。我们的方法得益于端到端培训。在不生成对象建议书的情况下,也可以减少计算时间。在实验中,就 VOC2012 segmentation val 和 VOC2012 SDS val 的 mAPr 而言,我们的方法得到了 62.1 和 61.8 的结果,在提交时这是最先进的。本文还报告了 Microsoft COCO test-std test-dev 数据集的结果。
1、引言
长期以来,目标检测和语义分割一直是图像理解的核心任务。对象检测的重点是为对象生成边界框。这些框可能不够精确,无法本地化对象。同时,语义分割可以在像素级预测不同类别的更多细节。但是,它忽略了单对象实例的存在。
最近,同时检测和分割 (SDS) 14 成为一个很有前途的方向来生成每个对象实例的像素级标签,自然导致下一代对象识别 24 的目标。精确、高效的 SDS 可以作为一个基本工具应用于许多学科,其中像素标签和对象实例信息可以帮助构建机器人,实现自动驾驶,增强监控系统,构建智能家庭等等。
SDS 比分别进行对象检测和语义分割更具挑战性。在这个任务中,实例级别的信息和对象的像素级精确掩码将被估计。几乎所有以前的工作 14,5,15,3 采取基于自下而上段的对象建议书 35,31 作为输入,并借助强大的深卷积神经网络 (DCNN) 将系统建模为分类建议书。分类提案是在后处理中的输出或精炼,以产生最终结果
(这项工作得到了香港特区研究资助委员会的资助(项目编号 413113)。)
SDS 中的目标提案问题 SDS 中的目标提议问题人们注意到,带有目标提议输入的系统可能伴有一些缺点。首先,产生基于细分市场的建议需要时间。之前 SDS 工作 14、5、15、3 中使用的高质量提议发生器 31 处理一幅图像大约需要 40 秒。在第 5 节中讨论了使用之前的基于更快速分段的提议会降低性能。尚未针对 SDS 对最新提议的发生器 30 进行评价。
第二,战略部署储存的总体业绩取决于提案的质量,因为它们只选择所提供的提案。对象提案不可避免地包含有关每个提案中缺少对象和错误的噪声。最后但并非最不重要的一点是,如果一个 SDS 系统独立于对象建议书的生成,那么就不可能进行端到端参数调优。因此,系统失去了直接从图像中学习特征和结构信息的机会,而通过信息反馈来进一步提高系统性能是非常重要的。
我们的端到端 SDS 解决方案为了解决这些问题,我们提出了一个系统可行的方案,将对象提案生成集成到网络中,实现从图像到像素级标签的端到端训练,以实现实例感知的语义分割。
尽管在概念上很美,但由于各种尺度、高宽比和物体的变形,实际建立合适的模型是困难的。在我们的工作中,不直接分割对象,我们建议分割和分类部分或整个对象使用许多密集的补丁。然后通过在后处理步骤中聚合重叠补丁的掩码来生成对象的掩码,如图 1 所示。该方案具有中间层表示 1、7、36 和基于部分型模型37,16。它在系统构建和优化方面本质上是不同的。
图 1. 对象与许多密集的本地化补丁重叠。在对不同补丁中的对象进行分割后,可以使用聚合来推断完整的对象。
在我们的方案中,重叠斑块收集不同层次的信息进行最终的对象分割,这使得结果比仅仅从一个输入预测更稳健。因此,我们的端到端可培训 SDS 系统在补丁中输出语义段标签。
我们的贡献
我们为解决战略部署储存问题的框架作出了以下主要贡献
提出了一种生成密集的多尺度对象解析补丁的策略。
我们统一的端到端可训练无提议网络可以同时实现对每个补丁的分割和分类。通过在网络中共享卷积,减少了计算时间,得到了较好的结果。
我们开发了一个有效的算法,通过合并来自中间层补丁的信息来推断每个对象的分割掩码。
我们在 PASCAL VOC 2012 分割确认和 VOC 2012 SDS 确认基准数据集上评估了我们的方法。我们的方法产生了最先进的性能与合理的运行时间短。我们还使用 Microsoft COCO test-std 和 test-dev 数据对其进行了评估。基于 VGG-16 网络结构,在不进行网络集成的情况下获得了良好的性能。
2. 相关工作
SDS 任务与对象检测、语义分割和提案生成密切相关。我们将在本节中对其进行简要审查。
对象检测 目标检测在计算机视觉领域有着悠久的历史。在 DCNN 显示其强大的图像分类能力之前,基于部件的模型 9,37 受到了人们的欢迎。最近的对象检测框架 11、12、17、37、29、34、23、32、10 是基于 DCNN 21、33 对对象提议进行分类的。这些方法或者将对象提案作为独立的输入 12、37、29、34,或者对每个提案 17、11、32、10 使用整个图像和池功能。与这些方法不同,Ren 等人32 个采用共享卷积特征映射的统一提案生成和分类。它节省了生成对象建议书的时间,并且产生了良好的性能。
语义分割 语义切分 DCNN 21、33 还提高了语义切分 26、5、15、27、2、20、28、25 的性能。相关的方法可以分为两个流 C 一个利用 DCNNs 分类建议 15,5 和另一行是使用完全卷积网络 26,2,20,25 密集预测。CRF 可应用于后处理 2 或纳入网络 20、25,以细化片段轮廓。
SDS SDS 是一个比较新的话题。Hariharan 等人14 篇介绍了开创性工作。它将基于片段的对象提议 31 作为类似于对象检测的输入。采用两个网络 C 一个用于包围盒,一个用于掩模 C 提取特征。然后利用 SVM 4 对这些网络的特征进行级联和分类。
Hariharan 等人15 个使用超列表示来优化段掩码。但是更新所有的提议在计算上过于昂贵,特别是在部署诸如 VGG 33 这样的复杂网络时。因此,该方法利用了检测结果 12,并采用了最终重新评分程序。Chen 等人3 开发了一个整合自上而下和自下而上信息的能量最小化框架-操作闭塞 14。Dai 等人5 解决了效率问题,汇集了所有提案共享的卷积特征地图中的片段和边界框特征。所有方法均依赖于提案第 31 代,并在之后进行单独分类。
Liang 等人22 提议建立一个处理战略部署储存问题的无提案网络。在第 22 章,采用 2。然后使用另一个网络通过预测每个像素的对象位置将像素分配给对象。最后,进行后处理以生成实例级掩码。值得注意的是,我们使用了完全不同的系统。我们没有这些单独的步骤,而是聚合了 SDS 的中级补丁段预测结果。因此,我们的统一框架更加有效。
3. 我们的方法
通过局部分段预测结果的聚合,解决了 SDS 问题。我们生成多尺度的密集斑块,并在网络中对它们进行分类和分割。我们基于这些补丁推断对象。在下面,我们首先激发我们的 SDS 网络,并给出一个概述。
3.1. 动机
对象由对应于部件的补丁组成。这一概念在中层代表工作 1、7、36 中得到了广泛的探讨,并发现有助于提取和组织结构信息。直观上,通过划分目标进入语义补丁,如图 2 所示,建模和突出显示局部区域中的对象变化更容易。
图 2. 对象由许多不同的补丁组成。这个例子显示了许多有语义上意义的人体和汽车区域。部分或整个对象可以在一个补丁。
传统的方法 9、12、11 将滑动窗口或建议分类为对象,而我们的方法将语义补丁视为对象的一部分。相反,以前的提议分类框架是基于这样的假设,即大多数对象已经存在于提议中,剩下要做的就是把它们挑出来。它们不搜寻遗失的物体,因此在很大程度上取决于物体提案的质量。我们利用补丁来表示对象的策略更加灵活。
3.2. 网络结构
我们的网络如图 3 所示。它联合学习每个候选补丁上的分类标签和分割掩码。其关键部件是共享卷积层、多尺度分片产生器、多分类分支和分割分支。
图 3. 我们的网络概述。多维数据集表示特征映射,矩形表示操作。它需要一个完整的图像作为输入。然后利用多尺度贴片生成器生成不同尺度的贴片,并对齐对应的特征网格。分割和分类分支分别负责对补丁进行分割和分类。
3.2.1 卷积层
在我们的方法中,卷积层是共享的后续分类和分割分支。与分别提取这两个分支的特征相比,它大大降低了模型的复杂度。随后的分类和分割分支可视为多任务训练 11,增强了网络的泛化能力。在我们的例子中,分段分支寻求精确的定位和实例掩蔽,而分类分支推断补丁的语义。它们通过共享卷积参数彼此受益。
采用了 13 个卷积层与 ReLU 层和汇聚层交织,与 VGG-16 33 相似。为了实现我们的目标,我们放弃了最后一个集合层。我们将 G 表示为最后一个共享卷积特征映射。有 4 个汇聚层,网络步幅为 16c,即输入图像向下采样 16 倍。
3.2.2 多尺度贴片发生器
我们的主要贡献之一是多尺度补丁生成器,如图 4 所示,这对于构造基于补丁的框架是必不可少的。该部分的目标是从原始图像生成多尺度的斑块,自然地从 G 中裁剪出它们对应的特征网格,并对这些网格进行对齐以提高泛化能力。同时,提出了一种新的分类分割策略,将分类分割标签分配给这些补丁。
图 4. 补丁生成和对齐的图示。斑块的四个尺度对应于特征网格的四个尺度。我们使它们与同一决议一致。
候选补丁生成 候选补丁生成我们将对象分成几个部分,并将它们聚合在一起以推断对象。与以前基于提案的方法相比,这种方法更容易实现,因为这些方法要求提案严格涵盖对象。对于高recall我们使用了四个等级的补丁,分别是 4848、9696、192 和 384。使用滑动窗口生成这些具有 stride 16 的补丁,这使得每个对象与多个适当比例的补丁重叠。
每个贴片由四元组表示,在这里是其左上角的坐标,而h和w是高度和宽度,每一个对应于向下采样的特征网格在特征映射上以下设计11,17,每一个表示为比例因子 16 是网络步幅。然后对于所有的i是步幅为 1 的小网格
通过对单尺度的输入图像生成多尺度的图像块,得到不同层次的特征网格。它们是从共享卷积特征图中裁剪出来的,不增加计算量。学习分割候选对象 30 的相关工作采用多尺度输入,利用单尺度窗口搜索对象。主要区别在于我们的方法对于多尺度识别任务更加灵活。它还节省了卷积层消耗的计算时间。
比例对齐 比例对齐注意上述特征网格 Gis 具有不同的空间分辨率。我们将它们映射到相同的尺度,以实现网络对分类和分割分支的尺度不变泛化能力。
如上所述,空间尺度 在上是我们分别使用16的步幅我们使用去卷积和汇集层来校准它们到相同的大小12x12,很好地平衡了效率和效果.如图 4 所示,我们有四个案例,每个案例对应一个尺度。对于尺度3x3和6x6,我们使用反卷积层 26 来上采样它们到12x12尺度。相应的内核大小跨距值分别为反褶积层丰富了空间信息,对分割分支至关重要。我们进一步使用2x2/2的最大池化去映射到标准尺寸24x24。具有空间尺度的补丁12x12保持不变。
培训期间的标签分配 每个贴片应与类标签相关联,以及一个二进制掩码用于系统培训,然后可能只是目标的一部分,天真的裁剪标签从地面真相面具不是最佳的,因为可能复杂的物体外观和边界形状。因此,我们设计了以下规则,以更适当地分配标签。我们给一个正面标签如果它满足以下约束条件。
1.补丁的中心位于对象上
2.面积在内部,比面积大一半
3.面积在内部,比面积大五分之一
图 5. 贴片重叠图示。同一人的片段掩码显示在具有内容重叠的行中。对于不同的人,段掩码一般不重叠
只有当所有这些约束都满足时,我们才分配对象标签给和对象段包含在和上,该策略降低了训练过程中的噪声。为了能够在一个流水线中进行多尺度训练并减少计算量,我们将补丁掩模向下采样以获得分辨率48x48,这是输入补丁的最小比例.
通过制作贴片仅对中心负责,我们能够区分单个实例。如果有多个对象与重叠,仅标签和面罩将被预测。
换句话说,对于每个补丁,我们只分割一个补丁负责的对象,而不是与它重叠的多个对象,以最小化歧义。第二和第三个约束是要保证所涉及的语义信息足够多,规模合适。这种简单的策略在经验上是非常有效的。
3.2.3 多级分类分支
此分支需要从多尺度的补丁生成器作为输入预测语义标签中的。首先,我们使用 2 2 最大池降低模型的复杂性。
与其他标准设计类似,我们利用三个完全连接的层来分类补丁。对于补丁预测评分表示为。
3.2.4 分割分支
类似于多级分类分支,分割分支还采取作为输入。在贴片中它将部分或全部对象分割为注意,我们约束每个补丁
只负责一个对象 根据中心位置。
直觉类似于用框框 30 的中心表示对象。但是主要的区别在于放松了整个对象被边界框包围的约束。30 的方法针对的是生成目标提议,它需要独立的分类器进行分类。我们的网络实现了中层补丁的同时分割和分类。
这些补丁不一定是对象。最终简单聚合步骤参见章节.3.3推断对象.
我们进一步将该分支建模为像素级分类器,以预测掩模的每个元素直接在的基础上。我们产生了 48x48 的分类器,每个分类器对应于由两层完全连接的层组成,与 ReLU 交错如图 3 所示。最终的预测向量被重塑为 48 x48 评分图。割后,更新预测得分图的大小到我们将重新调整大小的分数图表示为
3.2.5 培训损失和策略
在训练阶段,我们将分类丢失和分割分支合并为
公式中是来自分类的预测分支对于属于类,是来自位置j处的分段分支的预测,是指示器功能,它是1如果否则为0,在此定义下,我们只计算前景对象的分割损失。
表 1. VOC 2012 分割确认的实验结果(4 月)。对于每个对象类,具有最佳 APr 的条目是粗体的。
表 2. VOC 2012 分割确认的实验结果(4 月卷)。每个对象类的最佳 APr vols 条目都是粗体。
N 是 Mi 中的元素数量。w 是要更新的参数。第一个和第二个术语对应于分类和分段。将这两个分支的权衡设置为 10。
我们反向传播这个损失函数的梯度来更新网络中的参数。不同于 32 的结构,它有四个步骤来训练一个两分支网络,我们同时训练两个分支以增加稳定性和最优性。
3.3. 补丁聚合
经过网络预测,我们的补丁分配预测标签和分段掩码表示为 xi 和 Yi。我们发现,如果一个对象实例被大量重叠的补丁覆盖,相应的片段掩码也会大量重叠。对于不同的情况,分段掩码彼此不同。这个属性如图 5 所示,在图像中非常常见,可用于推断对象。
使用每个补丁的预测语义标签,我们可以防止自底向上的分组过程累积错误。通过在邻近的补丁中合并分割掩码,我们为我们的方法优化了召回。
我们聚合补丁的方法是在 Alg 中绘制的。1. 对于每个 Pi,我们计算具有相同类标签的相邻修补程序的段掩码上的重叠分数。Pi 和 Pj 的重叠评分 oij 定义为各自补丁中分段掩模的并 (IoU) 8 上的交集。Pi 的行搜索范围是位于 Pi 左侧的连续 L 补丁。我们将此范围内的补丁表示为 Sr (Pi)。列搜索范围包括位于 Pi 顶部的连续 L 补丁,表示为 Sc (Pi)。我们只需要沿着行和列搜索一个方向,因为我们遍历了所有补丁。
在合并相应的片段掩码时,选择具有最高重叠分数的补丁对。此过程迭代,直到没有现有补丁对的重叠分数高于阈值。对于每个推断对象,我们将这些补丁的最高分作为其预测分数。请注意,我们的计算是对不同的尺度独立进行的。为了处理重复检测结果,我们应用非最大抑制 37,14
4. 实验评估
我们在相同的基准数据集 14、5、15、3、22 上评价了我们的方法。我们还给出了运行时的讨论和误差分析。在接下来的实验中,我们将多尺度的补丁聚合框架表示为 MPA。
4.1. 数据集和评价指标
使用了三个基准数据集。首先是 VOC 2012 segmentation val 8 子集。有 1449 幅图像有高质量的注释。请注意,对于 VOC 测试子集 8,没有用于 SDS 任务的测试服务器。因此,我们将我们的方法与具有相同训练数据的 PFN 22 进行了比较:10,582 个训练图像和注释来自训练子集和 SBD 13;排除了 val 子集中的图像。第二个数据集是 VOC 2012 的 SDS val 子集,注释来自 SBD 13。在这个子集中有 5,732 幅图像,在此基础上,我们用相同的 5,623 幅训练图像与 14,15,5 的方法进行了比较。我们还在 Microsoft COCO 24 dataset 上评估了我们的方法,这是 SDS 的更新和更复杂的方法。
为了培训和微调我们的网络,我们的系统建立在 Caffe 平台 19 上。我们使用已发布的 VGG-16 33 模型来初始化我们网络中的卷积层。而对于其他新的层,我们随机初始化他们从一个零均值高斯分布采样。初始学习率为 0.001,批量设定为 10。动量值为 0.9,重量衰减比为 0.001。我们随机选择一个 0.6,0.8,1,1.2,1.4 的规模,以调整输入图像和作物补丁大小 384x 384.
对于评价,我们使用了度量 APr 和 APr vol 预测在[14]。类似于标准地图 8,APr 是基于预测和地面实况的 IoU。不同之处在于,apr 计算 IoU 时使用的是掩码而不是边框。APr vol 是 9 个 IoU 阈值上 APr 的平均值,这比 APr 更全面,后者仅使用 IoU 阈值 0.5。
在推理过程中,我们将图像的 1 阶或 3 阶输入应用到我们的网络中。3 个尺度分别是原始图像分辨率的 0.6、1 和 1.4 倍。我们在所有数据集上使用相同的参数
4.2. VOC 2012 分割val的结果
我们与 PFN 22 进行了比较,后者在提交时对 VOC 2012 分割确认子集产生了最先进的结果。这种方法没有提议,但依赖于独立的分割网络.
结果列于表 1 和表 2 中。PFN 统一系统通过合并分割和实例分支进行训练,以共享卷积层,同时在PFN 独立方案,训练两个独立网络。CRF 20 已用于改善 PFN 的节段。如 2 所示,在语义分割的质量度量下,改进可以在 4 分左右。因此,PFN 自然享有这一奖金。
值得注意的是,我们的结果是在没有 CRF 优化的情况下产生的。即使没有这种有效的策略,两个表中显示的统计数据也显示了我们为实例生成的掩码的高质量。我们进一步比较了我们的结果与 APr 测量的 PFN,IoU 阈值范围在 0.6 到 0.9 之间,如表 3 所示。我们的单尺度系统已经达到了最先进的性能,而额外的 2 改进是由我们的 3 尺度结构产生的.
图 6. 方法生成的 VOC 2012 SDS val 子集的 SDS 结果。对于每个输入图像,我们显示地面实况标签和我们的分割结果
表 3. VOC 2012 分割确认的实验结果(4 月)(通过逐渐增加 IoU 阈值)。具有最佳 APr 的条目以粗体显示
表 4. VOC 2012 SDS val 的实验结果(AP 和 APvol)。最好的结果是加粗的
4.3. VOC 2012 SDS Val 结果
并与 CFM 5、SDS 14 和 Hypercolumn 15 进行了比较。结果列于表 4 中
图 7. 根据错位(L 条)、与相似类别混淆时的假阳性(S 条)和背景上的检测(B 条),通过 APr 测量的错误对性能的影响。该图显示了如果我们删除一种类型的错误,APr 的增加。(a) 对应于 VOC 2012 segmentation val 的单标度结果,(b) 对应于 VOC 2012 SDS val 的单标度结果。我们比较的方法只提供了类结果的平均值,我们直接使用它们。
表 5. 不同方法的运行时间比较
表 6. microsoft COCO test-std test-dev 在不同阈值下 mAPr 的实验结果
特别是,Hypercolumn 15 利用了一个独立的检测系统来重新定位精化的掩模。我们的系统同样可以通过使用推断对象的紧边界框来进行重排序。更具体地说,我们在同一个训练子集上训练一个快速的 RCNN 11。在测试期间,对于每个推断对象,我们从快速 RCNN 获取检测评分。也就是说,我们保留标签并更新推断对象的检测评分。结果在 3 规模 rescore 行表明,我们的方法工作正常,1.8 高于 Hypercolumn-rescore 和 1.1 高于 CFM。
我们在图 6 中展示了我们的方法在这个数据集上的一些分割结果。它处理实例相互遮挡的情况
4.4. 运行时间分析
我们在本节中比较了运行时间。通过在 val 子集上随机选择 100 个图像进行实验,并在 PC 上使用 NVIDIA GeForce Titan X 显示卡和单线程 Intel Core i7 3.50GHZ CPU 运行我们的系统。其他方法的运行时间引用自相应论文。
如表 5 所示,由于高质量的提案生成程序 31,基于提案的 14、15、5、3 系统花费的时间要长得多。而对于 PFN 22,语义切分步骤可以看作是一种提案生成方法,比 31 生成方法更有效。我们的方法与单尺度输入不到 2 秒涉及所有计算。我们的补丁聚合(算法 1)只需要 0.1s 即可完成。对于我们的 3 级输入,系统耗时不到 10 秒,这仍然比之前基于提议的方法效率更高,生成了高质量的结果。
4.5. 误差分析
我们利用 14 的工具来分析我们的结果。如图 7 所示,误本地化对性能有巨大的影响,类似于其他分配 14。这意味着掩模的定位精度还有很大的提高空间。其他两个错误 C 的影响,即混淆相似的类别或背景 C 要小得多。这些小误差说明我们网络的分类能力很强
4.6. Microsoft COCO 数据集的结果
最后,我们在 Microsoft COCO dataset 24 上评估了我们的方法,它有 80 个对象类和一个大型的复杂图像集。我们在 trainval 子集上训练我们的网络,它由 80k 40k 图像组成。我们在表 6 中以 mAPr@IoU 0.5:0.95(COCO 指标)、mAPr@IoU 0.5(VOC 指标)和 mAPr@IoU 0.75(严格指标)的形式报告了 test-std 和 test-dev 的结果.
如表 6 所示,与同样基于 VGG-16 而没有模型集成的当代工作 MNC-16 6 相比,我们的方法表现得体。我们预计使用 101 层 ResNet 18 将进一步改善性能.
五、结束语
我们完成了一个新的 SDS 系统的基础上,一个统一的端到端培训网络。它将原始图像作为输入,并对补丁进行分类和分割。然后采用一个简单的聚合过程从网络的补丁输出推断对象。我们在 SDS 的几个数据集上评价了我们的方法。我们未来的工作将是结合图形模型,以进一步减少错误定位错误。
参考文献
[1] A. Bansal, A. Shrivastava, C. Doersch, and A. Gupta. Mid-
level elements for object detection. CoRR, abs/1504.07284,
2015.
[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and
A. L. Yuille. Semantic image segmentation with deep con-
volutional nets and fully connected crfs. In ICLR, 2015.
[3] Y. Chen, X. Liu, and M. Yang. Multi-instance object seg-
mentation with occlusion handling. In CVPR, pages 3470–
3478, 2015.
[4] C. Cortes and V. Vapnik. Support-vector networks. Machine
Learning, 20(3):273–297, 1995.
[5] J. Dai, K. He, and J. Sun. Convolutional feature masking for
joint object and stuff segmentation. In CVPR, pages 3992–
4000, 2015.
[6] J. Dai, K. He, and J. Sun. Instance-aware semantic seg-
mentation via multi-task network cascades. CoRR, ab-
s/1512.04412, 2015.
[7] C. Doersch, A. Gupta, and A. A. Efros. Mid-level visual
element discovery as discriminative mode seeking. In NIPS,
pages 494–502, 2013.
[8] M. Everingham, S. M. A. Eslami, L. V. Gool, C. K. I.
Williams, J. M. Winn, and A. Zisserman. The pascal visual
object classes challenge: A retrospective. IJCV, 111(1):98–
136, 2015.
[9] P. F. Felzenszwalb, D. A. McAllester, and D. Ramanan. A
discriminatively trained, multiscale, deformable part model.
In CVPR, 2008.
[10] S. Gidaris and N. Komodakis. Object detection via a multi-
region & semantic segmentation-aware CNN model. CoRR,
abs/1505.01749, 2015.
[11] R. Girshick. Fast r-cnn. ICCV, 2015.
[12] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich
feature hierarchies for accurate object detection and semantic
segmentation. In CVPR, pages 580–587, 2014.
[13] B. Hariharan, P. Arbelaez, L. Bourdev, S.Maji, and J.Malik.
Semantic contours from inverse detectors. In ICCV, 2011.
[14] B. Hariharan, P. A. Arbel´aez, R. B. Girshick, and J. Malik.
Simultaneous detection and segmentation. In ECCV, pages
297–312, 2014.
[15] B. Hariharan, P. A. Arbel´aez, R. B. Girshick, and J. Malik.
Hypercolumns for object segmentation and fine-grained lo-
calization. In CVPR, pages 447–456, 2015.
[16] B. Hariharan, C. L. Zitnick, and P. Doll´ar. Detecting objects
using deformation dictionaries. In CVPR, pages 1995–2002,
2014.
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pool-
ing in deep convolutional networks for visual recognition.
CoRR, abs/1406.4729, 2014.
[18] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. CoRR, abs/1512.03385, 2015.
[19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R.Gir-
shick, S. Guadarrama, and T. Darrell. Caffe: Convolutional
architecture for fast feature embedding. arXiv preprint arX-
iv:1408.5093, 2014.
[20] P. Kr¨ahenb¨uhl and V. Koltun. Efficient inference in fully
connected crfs with gaussian edge potentials. CoRR, ab-
s/1210.5644, 2012.
[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet
classification with deep convolutional neural networks. In
NIPS, pages 1106–1114, 2012.
[22] X. Liang, Y. Wei, X. Shen, J. Yang, L. Lin, and S. Yan.
Proposal-free network for instance-level object segmenta-
tion. CoRR, abs/1509.02636, 2015.
[23] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR,
abs/1312.4400, 2013.
[24] T. Lin,M.Maire, S. Belongie, L. D. Bourdev, R. B. Girshick,
J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick.
Microsoft COCO: common objects in context. CoRR, ab-
s/1405.0312, 2014.
[25] Z. Liu, X. Li, P. Luo, C. C. Loy, , and X. Tang. Seman-
tic image segmentation via deep parsing network. In ICCV,
2015.
[26] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional
networks for semantic segmentation. In CVPR, pages 3431–
3440, 2015.
[27] M.Mostajabi, P. Yadollahpour, and G. Shakhnarovich. Feed-
forward semantic segmentation with zoom-out features. arX-
iv preprint arXiv:1412.0774, 2014.
[28] H. Noh, S. Hong, and B. Han. Learning deconvolution
network for semantic segmentation. arXiv preprint arX-
iv:1505.04366, 2015.
[29] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang,
Z. Wang, Y. Xiong, C. Qian, Z. Zhu, R. Wang, C. C. Loy,
X. Wang, and X. Tang. Deepid-net: multi-stage and de-
formable deep convolutional neural networks for object de-
tection. CoRR, abs/1409.3505, 2014.
[30] P. O. Pinheiro, R. Collobert, and P. Doll´ar. Learning to seg-
ment object candidates. CoRR, abs/1506.06204, 2015.
[31] J. Pont-Tuset, P. Arbel´aez, J. Barron, F. Marques, and J. Ma-
lik. Multiscale combinatorial grouping for image segmenta-
tion and object proposal generation. In arXiv:1503.00848,
March 2015.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Toward-
s real-time object detection with region proposal networks.
NIPS, 2015.
[33] K. Simonyan and A. Zisserman. Very deep convolution-
al networks for large-scale image recognition. CoRR, ab-
s/1409.1556, 2014.
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,
D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.
Going deeper with convolutions. CoRR, abs/1409.4842,
2014.
[35] K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers, and
A. W. M. Smeulders. Segmentation as selective search for
object recognition. In ICCV, pages 1879–1886, 2011.
[36] J. Yan, Y. Yu, X. Zhu, Z. Lei, and S. Z. Li. Object detection
by labeling superpixels. In CVPR, pages 5107–5116, 2015.
[37] Y. Zhu, R. Urtasun, R. Salakhutdinov, and S. Fidler.
segDeepM: Exploiting Segmentation and Context in Deep
Neural Networks for Object Detection. In CVPR, 2015.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。