赞
踩
论文链接:https://arxiv.org/pdf/2203.09642.pdf
代码链接:https://github.com/Kitware/COAT
已有的工作面临着三个主要挑战:
本文主要有以下两个贡献点:
1)作者提出了第一个基于级联Transformer的端到端行人搜索框架。渐进式设计有效地平衡了人的检测和ReID,而Transformer帮助注意比例和姿态/视角的变化。
2)在多尺度Transformer中,作者使用一种遮挡注意机制,在遮挡场景中生成具有鉴别性的细粒度人物表征,从而提高了性能。
正如前面提到的,人的检测和人的ReID有着相互冲突的目标。因此,很难在骨干网络顶部共同学习这两个子任务的判别统一表示。与级联的R-CNN相似,作者在多尺度Transformer的
T
T
T阶段中将特征学习分解为顺序步骤。也就是说,Transformer中的每个头逐级细化预测对象的检测和ReID精度,即,可以逐步学习由粗到细的统一嵌入。然而,在被其他人、物体或背景遮挡的情况下,网络可能会遭受目标身份的噪声表示。为此,作者开发了多尺度Transformer中的遮挡注意机制,以学习遮挡鲁棒表示。如上图2所示,本文的网络是基于Faster R-CNN目标检测器主干与区域proposal网络(RPN)。然而,作者通过引入一个层叠的遮挡注意力transformers来扩展框架,该转换器以端到端方式进行训练。
从ResNet-50骨干中提取1024-dim stem特征映射后,作者使用RPN来生成区域proposals。对于每个proposals,应用RoI-Align操作将一个
h
×
w
h \times w
h×w区域作为基本的特征图
F
\mathcal{F}
F,其中
h
h
h和
w
w
w分别表示特征图的高度和宽度,
c
c
c为通道数。
之后,作者采用多阶段级联结构学习嵌入的人检测和ReID。RPN的输出proposals在第一阶段用于对正实例和负实例进行重新采样。然后将第一阶段的box输出作为第二阶段的输入,以此类推。在每个阶段
t
t
t,将每个proposal的合并特征图发送给该阶段的卷积transformers。为了获得高质量的实例,级联结构逐步施加更严格的阶段约束。在实际应用中,逐步增加交叉并集(IoU)阈值
u
t
u_t
ut。每个阶段的transformers后面有三个头,如NAE,包括一个人/背景分类器,一个box回归器和一个ReID鉴别器。注意,作者在第一阶段去掉了ReID鉴别器,以便在细化之前将网络集中于首先检测场景中的所有人。
这里将详细描述遮挡的注意Transformer,如图3所示。
1)Tokenization
给定基本特征图
F
∈
R
h
×
w
×
c
\mathcal{F} \in \mathbb{R}^{h \times w \times c}
F∈Rh×w×c,对不同尺度下的Transformer输入进行token化。对于多尺度表示,作者首先将
F
\mathcal{F}
F通道分割为
n
n
n个切片,即
F
ˉ
∈
R
h
×
w
×
c
^
\mathcal{\bar{F}} \in \mathbb{R}^{h \times w \times \hat{c}}
Fˉ∈Rh×w×c^,其中
c
^
=
c
n
\hat{c} = \frac{c}{n}
c^=nc来处理每个尺度的token。与ViT对大图像patch进行标记化不同,这里的transformer利用一系列卷积层来基于切片特征映射
F
ˉ
\mathcal{\bar{F}}
Fˉ生成tokens。本文的方法受益于CNN的归纳偏差,并学习CNN的局部空间背景。不同的尺度由不同大小的卷积核实现。
通过一个卷积层将切片的特征映射
F
ˉ
∈
R
h
×
w
×
c
^
\mathcal{\bar{F}} \in \mathbb{R}^{h \times w \times \hat{c}}
Fˉ∈Rh×w×c^转换为新的token映射
F
^
∈
R
h
^
×
w
^
×
c
^
\hat{F} \in \mathbb{R}^{\hat{h} \times \hat{w} \times \hat{c}}
F^∈Rh^×w^×c^后,将其flatten为token输入
x
∈
R
h
^
w
^
×
c
^
x \in \mathbb{R}^{\hat{h}\hat{w} \times \hat{c}}
x∈Rh^w^×c^。计算的token数为:
其中内核大小
k
k
k,步幅
s
s
s,卷积层的填充
p
p
p,
d
d
d是每个token的patch大小.
2)Occluded attention
为了处理遮挡,作者在Transformer中引入了一种新的token级遮挡注意机制来模拟真实应用中的遮挡。具体来说,首先从一个mini-batch中的所有检测proposals中收集token,记为token bank
X
=
{
x
1
,
x
2
,
⋅
⋅
⋅
,
x
P
}
\textbf{X} = \{\textbf{x}_1, \textbf{x}_2,···,\textbf{x}_P \}
X={x1,x2,⋅⋅⋅,xP},其中
P
P
P为该批次中每个阶段的检测proposal个数。由于RPN中的proposal包含了正反两方面的例子,token bank由前景行人部分和背景目标。我们在token bank之间tokens,所有实例都基于相同的交换指数集
M
\mathcal{M}
M。如上图3所示,交换的token对应于token映射中语义一致但随机选择的子区域。每个交换的token表示为:
其中
x
j
\textbf{x}_j
xj表示从token bank中随机选择的另一个样本。
M
ˉ
\mathcal{\bar{M}}
Mˉ表示
M
\mathcal{M}
M的互补集,即
x
i
=
x
i
(
M
ˉ
)
⋃
x
i
(
M
)
\textbf{x}_i = \textbf{x}_i(\mathcal{\bar{M})} \bigcup \textbf{x}_i(\mathcal{M})
xi=xi(Mˉ)⋃xi(M)。假设交换token bank
X
\textbf{X}
X,计算它们之间的多尺度自注意,如上图3所示。就token的每个scale而言,作者运行transformers的两个子层(即,多头自注意(MSA)和一个前馈网络(FFN))。具体来说,通过三个独立的全连接(FC)层将混合tokens
x
\textbf{x}
x转换为query矩阵
Q
∈
R
h
^
w
^
×
c
^
\textbf{Q} \in \mathbb{R}^{\hat{h} \hat{w} \times \hat{c}}
Q∈Rh^w^×c^,key矩阵
K
∈
R
h
^
w
^
×
c
^
\textbf{K} \in \mathbb{R}^{\hat{h} \hat{w} \times \hat{c}}
K∈Rh^w^×c^和value矩阵
V
∈
R
h
^
w
^
×
c
^
\textbf{V} \in \mathbb{R}^{\hat{h} \hat{w} \times \hat{c}}
V∈Rh^w^×c^。可以进一步计算多头注意力和所有值的加权和为:
我们将query、key和value分割成
m
m
m个头,以获得更多的多样性,也就是说,从大小为
h
^
w
^
×
c
^
\hat{h} \hat{w} \times \hat{c}
h^w^×c^的张量到大小为
h
^
w
^
×
c
^
m
\hat{h} \hat{w} \times \frac{\hat{c}}{m}
h^w^×mc^的
m
m
m个块。然后将独立注意输出串接并线性转换为期望维数。在MSA模块之后,FFN模块对每个token进行非线性转换,以增强其表示能力。然后将增强的特性映射成大小为
h
^
×
w
^
×
c
^
\hat{h} \times \hat{w} \times \hat{c}
h^×w^×c^作为transformers的输出。
最后,作者将transformers的
n
n
n个尺度输出连接成原始的空间尺寸
h
^
×
w
^
×
c
\hat{h} \times \hat{w} \times c
h^×w^×c。注意,在每个Transformer外面有一个残差连接。经过GAP (global average pooling)层后,提取的特征被送入后续的头部进行box回归、人物/背景分类和人物再识别。
3)与concurrent works的相关性
不同领域有两种基于虚拟现实技术的并行工作,其中,Chen等人开发了一种多尺度变压器,包括两个独立的分支,带有small-patch和large-patch token。基于交叉注意token融合模块学习两尺度表示,其中每个分支的单个token被视为一个查询,以与其他分支交换信息。相反,本文作者利用一系列具有不同内核的卷积层来生成多尺度token。最后,作者连接增强的特征映射对应于transformer的特定切片的每个尺度。
为了处理person ReID中的遮挡和错位问题,He等人对人部分的patch embedding进行洗牌并重新组合,每一组包含多个随机的单个实例的patch embedding。与此相反,本文的方法首先在一个mini-batch中交换实例的partial tokens,然后基于混合token计算被遮挡的注意力。因此,最终的嵌入部分覆盖目标人,从不同的人或背景对象中提取特征,产生更强的遮挡鲁棒表示。
在推理阶段,作者通过删除上图3中的token mix-up步骤,将遮挡注意机制替换为Transformer中的经典自注意模块。在最后阶段输出具有相应嵌入的检测包围盒,并使用NMS操作去除冗余的包围盒。
主要在CUHK-SYSU库和PRW库这两个库上进行实验
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。