赞
踩
based on the FasterRCNN
为了在一个连贯的模型中处理广泛的频繁和不太频繁的遮挡模式,我们提出了不同的注意机制,这就使得检测器更加注意可见的身体部位。这些注意机制是由基于cnn的不同通道的检测器。注意力机制在不同信道学习适当的注意力参数从而有效地处理不同的遮挡模式。
1.我们分析了行人检测器中身体区域与不同CNN信道特征之间的关系,发现其中许多区域是可定位和可解释的。
2.我们通过在FasterRCNN结构中增加一个额外的关注网络,将 channel-wise注意机制应用于不同的遮挡模式。探讨了不同的注意指导,包括自我注意、可见框注意和部分注意。我们的方法只对普通FasterRCNN架构做了微小的修改,因此易于实现和训练。
3.效果好 CityPersons:8pp gain比FasterRCNN Caltech:比最先进的领先4pp。
这是第一个处理遮挡工作的FasterRCNN架构
早期based on the RCNN structure:依赖于高质量的外部建议框proposal。 FasterRCNN已经成为事实上的标准架构,允许端到端学习
最常用的策略是学习一系列检测器,每个对应每个手工设定的遮挡模式。应用不同的特征,包括手工特征和深度卷积特征,最后通过这些集成模型的输出的融合来决定。这些方法的缺点是每个部分/遮挡模式都是独立学习的,而且在测试时应用这些模型非常耗时。还有一些研究提出了以关节方式学习多遮挡模式的方法,节约了训练和测试的时间,然而最终的决策仍然是通过对多个部分的分数进行积分来做出的,这使得整个过程更加复杂和难以训练。相比之下,我们学习一个持续的注意力向量,既容易训练,也有低的开销。
提出了 squeeze-and-excitation networks压缩-激励网络来模拟卷积特征通道间的相互依赖关系。
channel-wise attention是自我引导的,没有外部信号。然而在这篇文章中,将展示外部指导帮助提升channel-wise attention机制性能。
Convnets卷积网络已被证明有能力学习对象检测的代表特征,并且最近的一些工作通过视觉化隐藏神经元的激活来分析其可解释性。
这里研究了通道是否与行人人体部位有关。许多通道呈现一些高度的激活模式,这些激活模式与特定的身体区域或身体部位有关。
为了用统计学的方法更好地理解身体各部分与各通道之间的关系,在每个二值通道特征图和部分检测热图之间实现 pixel-wise XOR操作。each pair每对的相关值是由XOR映射中一个值的百分比来度量的。我们发现,对于每幅图像,超过30%的通道与14个部分检测热图其中之一显示强相关(相关值≥60%)。
这一观察结果鼓励我们探索遮挡行人检测的通道式注意的可能性,因为这种注意机制可以更多地关注可见的身体区域,而较少地关注遮挡区域。
主要挑战就是人体遮挡模式的多样性。在卷积神经网络中使用 channel-wise attention,使网络在一个相关模型中学习不同遮挡模式的更有代表性的特征。
上层是FasterRCNN检测器典型的特征提取过程。FasterRCNN网络通过优化以下损失函数进行端到端的训练:
L0=Lrpn_cls+Lrpn_reg+Lcls+Lreg
Lrpn_cls和Lcls是RPN和主网络的交叉熵损失,Lrpn_reg和Lreg是边界框回归的L1损失。
在我们的方法中,提出了一种附加的注意网络,用于回归信道方向的注意向量, 叫做Ω,用于对多通道卷积特征进行重加权操作。在重新加权后,特征被传递到分类网络。
遮挡形式n定义为occl(n) = [v0p0,v1p1,…,vkpk],vi∈ {0,1},i ∈ [0,k], (2)
pi表示每个主体部分,而vi是一个二进制变量,表示第i部分的可见性。
标准CNNS中,通道的权重是固定的,故在不同的样本之间不存在差异。这种机制限制了网络对各种现象的适应性。
如图,足部通道对最终得分有贡献,而与遮挡无关。然而,这通常会导致一个较低的总分,因为遮挡模式的变化太大,以至于不能产生与未遮挡行人相同的高分。
我们的直觉是让网络来决定每个样本,每个通道在最终特征库中应该贡献多少。直观地说,网络应该让那些代表可见部分的通道贡献更多,而不可见部分贡献更少。
通道的重新加权可表示为
fchn表示顶部通道特性,以及Ωn是第n个遮挡模式的权重参数向量。
以这种方式,通道特征的重要性随着每个样本的遮挡模式的变化而变化。例如,左边身体被遮挡, Ω应该调整,使对应左边身体的对应通道区域有较低的权重,意味着它们对最终的得分有较低的影响。
注意网络接受注意引导G的输入,然后学习一个映射函数F,用于回归Ω作为输出:Ω = F(G T ).
我们有意让注意向量Ω与特定的遮挡模式产生联系的同时,重要的是要注意,我们的注意力向量Ω在我们所有的关注网络是连续的,因此不局限于任何像以前工作的特定的离散遮挡模式。注意向量Ω是端到端训练的,不管是通过自我引导还是外部额外信息引导。
考虑三种不同类型的 guidance G:(1)顶层卷积特征(2)可见边界框(3)部分检测的热图。根据我们用于指导的信息,我们将注意力网定义为:self attention, visible-box attention and part attention nets。我们从self attention开始,然后进一步利用外部信息作为更强的指导。我们在图5中展示了上述三个注意力网络的示例
在本节中,我们将首先介绍我们使用的评估指标,然后简要描述用于实验的数据集,以及一些实现细节。之后,我们将展示不同注意力网络的实验结果,并与目前的技术水平进行比较。最后,我们将想象注意力是如何在我们的检测器中工作的。
在这篇论文中,我们建议使用通道方向的注意力来处理行人的遮挡。从可视化中,我们发现许多通道特征是局部可实现的,并且常常对应于不同的身体部位。在这些发现的激励下,我们设计了一个注意网络来生成注意向量,以重新加权顶级卷积通道。这个注意力网可以作为附加组件添加到任何基于CNN的检测器。我们探讨了不同的注意指导,发现在遮挡的情况下,所有的注意指导都有提高,而最有效的是基于部分检测的注意指导。
我们报告了CityPersons, Caltech和ETH数据集的实验结果,并显示了基线FasterRCNN检测器的显著改进。特别是,在CityPersons,我们在严重遮挡的子集上实现了8pp的显著改进,在Caltech上,我们在严重遮挡的人群上超过了先前最好方法的4pp。在上述结果的鼓舞下,我们相信所提出的方法也将改善一般目标检测任务的结果,其中遮挡也是一个主要的挑战。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。