赞
踩
paper题目:Identity-Guided Human Semantic Parsing for Person Re-Identification
paper是中科院自动化所发表在ECCV 2020的工作
paper地址:链接
现有的基于对齐的方法必须使用预训练的人体解析模型来实现像素级对齐,并且无法识别对行人重识别至关重要线索(例如背包和手提包)。本文提出了身份引导的人体语义解析方法 (ISP),以在像素级定位人体部位和携带物品,以便仅使用行人身份标签对齐行人 reID。在特征图上设计级联聚类来生成人体部位的伪标签。具体来说,对于一个人的所有图像的像素,首先将它们分组到前景或背景,然后将前景像素分组到人体部分。聚类分配随后被用作人体部位的伪标签来监督部位估计,并且 ISP 迭代地学习特征图并将它们分组。最后,根据自学习的部位估计得到人体部位和携带物品的局部特征,仅利用可见部位的特征进行检索。在三个广泛使用的数据集上进行的大量实验验证了 ISP 优于许多最先进的方法的优越性。代码地址:链接
关键词:行人重识别,弱监督人体解析,对齐表示学习
行人重识别(re-ID)旨在将不同摄像机从不同角度拍摄的人物图像关联起来,越来越受到学术界和工业界的关注。然而,由于普遍存在的错位问题,行人重识别的任务本质上是具有挑战性的,这通常是由部分遮挡、不准确的行人检测、人体姿势变化或相机视角变化引起的。所有这些因素都会显着改变一个人在图像中的视觉外观,并大大增加这个检索问题的难度。
近年来,研究者为缓解错位问题做出了大量的努力。额外的无语义方法试图通过自学习的方式来解决错位问题。然而,它们只能在区域一级实现粗略的对齐。这些方法可以粗略地归纳为以下几类。(1) 基于刚性条纹的方法,它直接将人物图像划分为固定的水平条纹。(2) 基于自动定位的方法,它试图通过学习的网格来定位人体部位。(3) 基于注意力的方法,该方法通过增强识别性区域和抑制背景来构建部位对齐。上述大多数方法都很粗糙,其定位的部分有很多背景噪声,而且没有考虑到由于遮挡而导致一些人体部位在图像中消失的情况。图1的第一行说明了这些方法。
图 1. 基于对齐的方法。从 (a) 到 (d):AlignedReID、MSCAN、DPL、MHN。第二行中的额外语义由预训练的解析模型预测,该模型排除了个人携带物品,并且当一个人被另一个人遮挡时容易出错。本文的方法是第一个额外的无语义方法,可以在像素级定位人体部位和携带物品,并明确识别遮挡图像中的可见部分
基于额外语义的方法在部分/姿势方面注入额外的语义,以实现像素级的部分对齐。他们的成功很大程度上取决于额外预训练的人体解析模型或姿势估计器的准确性。最重要的是,可识别的个人物品(例如背包和手提包)是识别一个人的潜在有用的上下文线索,这些预训练模型无法识别并被丢弃为背景。额外基于语义的方法的失败案例如图 1 的第二行所示。
本文提出了一种额外的无语义方法,即身份引导语义解析(ISP),它可以仅使用行人身份标签在像素级定位人体部位和潜在的个人物品。具体来说,作者设计了特征图上的级联聚类,并将聚类分配视为人体部位的伪标签来监督部位估计。对于一个人的所有图像的像素,首先根据它们在特征图上的激活将它们分组到前景或背景,这是基于分类网络对前景像素比背景像素更敏感的合理假设。在这个阶段,前景部分由网络本身自动搜索,而不是手动预定义,自学习方案可以捕获人体部分和个人物品的潜在有用语义。
接下来,需要将人体部分标签分配给前景像素。这个阶段的难点在于如何保证不同图像在外观/姿势变化方面的语义一致性,尤其是遮挡,这在以前的额外语义自由方法中没有得到很好的研究。为了克服这个困难,作者将具有相同 ID 的所有图像的前景像素,而不是单个图像的前景像素,聚类到人体部分(例如,头部、背包、上半身、腿和鞋子),当实例被遮挡时,单个图像的分配语义部分的数量可以自适应地变化。因此,本文的方案对遮挡具有鲁棒性,并且确保为不同图像中的人体部位分配的伪标签在语义上是一致的。图 1 的第二行显示了分配的伪标签。
作者迭代地对特征图的像素进行聚类,并将聚类分配用作人体部分的伪标签来学习部分表示。在这种迭代机制中,生成的伪标签变得越来越精细,导致部分估计越来越准确。然后使用部分估计的预测概率图对人体部分和个人物品的部分表示进行部分池化。在匹配过程中,只考虑probe和gallery图像之间共享可见部分的局部特征。此外,ISP 是一种普遍适用且与backbone无关的方法,可以很容易地应用于流行的网络。
这项工作的贡献总结如下:
本文提出了身份引导的人类语义解析方法(ISP),用于对齐的行人重识别,它可以在像素级定位人体部位和个人物品(例如,背包和手提袋),只需在图像级监督人的身份。
据作者所知,ISP是第一个可以明确地从被遮挡的图像中识别出可见部分的额外语义自由方法。被遮挡的部分被排除在外,在特征匹配过程中只考虑probe和gallery图像中共同可见部分的特征。
在Market-1501、DukeMTMC-reID和CUHK03-NP这三个行人重识别数据集上实现了新的最先进的性能。
据作者所知,以前没有使用图像级监督学习人类语义解析的工作,而只有用于语义分割的弱监督方法,其中旨在通过图像级监督在像素级定位人、马或狗等对象。然而,所有这些方法都不能用于弱监督的人类解析任务,因为它们侧重于不同的层次。此外,它们复杂的网络结构和目标函数不适合person re-ID的端到端学习。因此,作者从这些方法中汲取的灵感很少。
基于对齐的方法可以大致概括为四个类:
基于刚性条纹的方法。一些研究人员直接将人物图像划分为刚性水平条纹以学习局部特征。Wang等人[43]设计了一个多粒度网络,其中包含不同粒度的水平条纹。Zhang等人[52]引入了最短路径损耗来对齐严格划分的局部条纹。然而,基于条纹的分区过于粗糙,无法很好地对齐人体部分,并引入了大量的背景噪声。
基于自动定位的方法。已经提出了一些工作来通过结合区域选择子网络来自动定位判别部分。Li等人[20]利用STN来定位潜在部分,然后提取对齐的部分特征。然而,潜在部分的定位网格仍然很粗糙并且有很多重叠。此外,它们产生固定数量的潜在部分,无法处理被遮挡的图像。
基于注意力的方法。注意机制通过抑制背景噪声和增强判别区域来构建对齐。然而,这些方法不能明确定位语义部分,图像之间焦点区域的一致性也得不到保证。
额外的基于语义的方法。许多工作在部位/姿势方面采用额外的语义来定位身体部位并尝试实现像素级对齐。Kalayeh等人[18]提出采用预训练的人类解析模型来提供额外的语义。Zhang等人[53]进一步采用DensePose来获得一个人的 24 个区域的密集语义。然而,对额外语义的要求限制了这些方法的实用性和鲁棒性。首先,现成的模型可能会在语义估计中出错,并且这些方法无法在整个训练过程中纠正错误。其次,背包和手提袋等可识别的个人物品,这些对行人重识别至关重要,不能作为背景被识别和忽略。
本文采用聚类来学习仅使用人身份标签的人体语义解析,它可以在像素级定位人体部位和携带物品。聚类是一种经典的无监督学习方法,将相似的特征分组,而其能力在深度神经网络的端到端训练中尚未得到充分探索。最近,Mathilde等人[2]将聚类应用于图像分类的端到端无监督学习。Lin等人[26]还使用聚类来解决无监督行人重识别任务。与它们不同的是,作者进一步通过将像素分组到人体部分来生成像素级的伪部分标签,由于各种噪声,这更具挑战性。此外,聚类结果必须保证图像间的语义一致性。
ISP的概述如图2所示。本文有两个过程,即伪部分标签生成和部分对齐表示学习。重复上述两个过程,直到网络收敛。
图 2. ISP 概述。实线代表训练阶段,虚线代表聚类阶段。这两个阶段迭代完成,直到网络收敛。 ISP 是一种普遍适用且与backbone无关的方法。
给定来自
n
i
d
n_{i d}
nid个不同人的
n
n
n个训练行人图像
{
X
i
}
i
=
1
n
\left\{X_{i}\right\}_{i=1}^{n}
{Xi}i=1n及其身份标签
{
y
i
}
i
=
1
n
\left\{y_{i}\right\}_{i=1}^{n}
{yi}i=1n(其中
y
i
∈
{
1
,
…
,
n
i
d
}
y_{i} \in\left\{1, \ldots, n_{i d}\right\}
yi∈{1,…,nid}),可以学习人类语义解析以获得人重识别的像素级部分对齐表示。对于图像
x
i
x_{i}
xi,backbone映射函数(定义为
f
θ
f_{\theta}
fθ)将输出全局特征图:
M
g
c
×
h
×
w
=
f
θ
(
x
i
)
M_{g}^{c \times h \times w}=f_{\theta}\left(x_{i}\right)
Mgc×h×w=fθ(xi)
其中
θ
\theta
θ是backbone的参数,
c
,
h
,
w
c, h, w
c,h,w是通道、高度和宽度。为了清楚说明,省略了通道维度,并用
M
g
(
x
,
y
)
M_{g}(x, y)
Mg(x,y)表示空间位置
(
x
,
y
)
(x, y)
(x,y)处的特征,它是
c
c
c-dim 的向量。
像素级部分对齐表示的主要思想是用属于该部分的像素表示来表示人体部分,这是由一组置信度图加权的像素表示的聚合。每个置信度图都用于替代人体部分。假设总共有
K
−
1
K-1
K−1个人体部分和一个背景部分,需要为每个人的图像估计
K
K
K个不同语义部分的置信度图。需要注意的是,将携带物品视为人体部位的一类。
K
K
K个置信度图定义为
P
0
,
P
1
,
…
,
P
K
−
1
P_{0}, P_{1}, \ldots, P_{K-1}
P0,P1,…,PK−1,其中每个置信图
P
k
P_{k}
Pk与一个语义部分相关联。用
P
k
(
x
,
y
)
P_{k}(x, y)
Pk(x,y)表示属于语义部分
k
k
k的像素
(
x
,
y
)
(x, y)
(x,y)的置信度。然后可以通过以下方式从全局特征图中提取第
k
k
k部分的特征图:
M
k
=
P
k
∘
M
g
M_{k}=P_{k} \circ M_{g}
Mk=Pk∘Mg
其中
k
∈
{
0
,
…
,
K
−
1
}
k \in\{0, \ldots, K-1\}
k∈{0,…,K−1}并且
∘
\circ
∘是元素乘积。将
M
k
M_{k}
Mk从
k
=
1
k=1
k=1加到
k
=
K
−
1
k=K-1
k=K−1中,将得到前景特征图
M
f
M_{f}
Mf。理想情况下,对于被遮挡的人物图像中的被遮挡部分
k
k
k,应该满足
∀
(
x
,
y
)
P
k
(
x
,
y
)
=
0
\forall_{(x, y)} P_{k}(x, y)=0
∀(x,y)Pk(x,y)=0,这是合理的,网络不应该为不可见部分生成表示。
现有研究整合了人体解析结果,以帮助在像素级捕获人体部位。然而,仍有许多有用的上下文线索,如背包和手提包,不属于手动预定义的人体部位范围。作者在特征图 M g M_{g} Mg上设计级联聚类来生成人体部位的伪标签,包括人体部位和个人物品。
具体来说,在第一阶段,对于同一个人的所有
M
g
M_{g}
Mg,基于前景像素比背景像素具有更高响应的概念,根据激活将它们的像素分组到前景或背景中。在这个阶段,网络自动搜索判别性的前景部位,自学习方案可以同时应用人体部位和潜在有用的个人物品,并具有很高的响应度。将
M
g
(
x
,
y
)
M_{g}(x, y)
Mg(x,y)的
l
2
l_{2}
l2范数视为像素
(
x
,
y
)
(x, y)
(x,y)的激活。对于
M
g
M_{g}
Mg的所有像素,用它们的最大值标准化它们的激活:
a
(
x
,
y
)
=
∥
M
g
(
x
,
y
)
∥
2
max
(
i
,
j
)
∥
M
g
(
i
,
j
)
∥
2
a(x, y)=\frac{\left\|M_{g}(x, y)\right\|_{2}}{\max _{(i, j)}\left\|M_{g}(i, j)\right\|_{2}}
a(x,y)=max(i,j)∥Mg(i,j)∥2∥Mg(x,y)∥2
其中
(
i
,
j
)
(i, j)
(i,j)是
M
g
M_{g}
Mg中的位置,
a
(
x
,
y
)
a(x, y)
a(x,y)的最大值等于1。
在第二阶段,将由第一个聚类步骤分配的所有前景像素聚类为
K
−
1
K-1
K−1个语义部分。当人被遮挡时,单个图像的语义部分的数量可能小于
K
−
1
K-1
K−1,因为聚类样本是来自同一个人图像的所有
M
g
M_{g}
Mg的前景像素,而不是单个图像的
M
g
M_{g}
Mg。因此,聚类对遮挡具有鲁棒性,并确保跨不同图像的部分分配在语义上是一致的。在这个阶段,关注像素之间的异同而不是激活,因此使用了
l
2
l_{2}
l2归一化:
D
(
x
,
y
)
=
M
g
(
x
,
y
)
∥
M
g
(
x
,
y
)
∥
2
D(x, y)=\frac{M_{g}(x, y)}{\left\|M_{g}(x, y)\right\|_{2}}
D(x,y)=∥Mg(x,y)∥2Mg(x,y)
然后将聚类分配用作人体部分的伪标签,其中包含个行人携带物品作为前景部分,以监督人体语义解析的学习。将标签 0 分配给背景,身体部位根据从上到下的平均位置分配给标签 { 1 , … , K − 1 } \{1, \ldots, K-1\} {1,…,K−1}。 ISP 迭代地在特征图上进行级联聚类,并使用分配作为伪部分标签来学习部分表示。在这种迭代机制中,生成的伪标签变得越来越精细,从而为对齐的行人 re-ID 提供越来越准确的部分估计。
优化。对于部分预测,使用一个线性层,然后使用 softmax 激活作为分类器,其公式为:
P
k
(
x
,
y
)
=
softmax
(
W
k
T
M
g
(
x
,
y
)
)
=
exp
(
W
k
T
M
g
(
x
,
y
)
)
∑
i
=
0
K
−
1
exp
(
W
i
T
M
g
(
x
,
y
)
)
P_{k}(x, y)=\operatorname{softmax}\left(W_{k}^{T} M_{g}(x, y)\right)=\frac{\exp \left(W_{k}^{T} M_{g}(x, y)\right)}{\sum_{i=0}^{K-1} \exp \left(W_{i}^{T} M_{g}(x, y)\right)}
Pk(x,y)=softmax(WkTMg(x,y))=∑i=0K−1exp(WiTMg(x,y))exp(WkTMg(x,y))
其中
k
∈
{
0
,
…
,
K
−
1
}
k \in\{0, \ldots, K-1\}
k∈{0,…,K−1}和
W
W
W是线性层的参数。
将概率
P
k
(
x
,
y
)
P_{k}(x, y)
Pk(x,y)指定为属于语义部分
k
k
k的像素
(
x
,
y
)
(x, y)
(x,y)的置信度,并采用交叉熵损失来优化分类器:
L
parsing
=
∑
x
,
y
−
log
P
k
i
(
x
,
y
)
\mathcal{L}_{\text {parsing }}=\sum_{x, y}-\log P_{k_{i}}(x, y)
Lparsing =x,y∑−logPki(x,y)
其中
k
i
k_{i}
ki是为像素
(
x
,
y
)
(x, y)
(x,y)生成的人体部位伪标签。
语义部分 k k k的表示由 F k = G A P ( M k ) F_{k}=G A P\left(M_{k}\right) Fk=GAP(Mk)获得,其中 G A P G A P GAP表示全局平均池化。将除 k = 0 k=0 k=0之外的所有 F k F_{k} Fk连接起来,并将结果视为训练局部部分的整体表示。此外,前景和全局图像的表示由 F f = G A P ( M f ) , F g = G A P ( M g ) F_{f}=G A P\left(M_{f}\right), F_{g}=G A P\left(M_{g}\right) Ff=GAP(Mf),Fg=GAP(Mg)直接获得。实际上,概率图乘积和 GAP 就是加权池化的操作,如图 2 所示。
在训练阶段,分别使用三组基本损失来表示局部、前景和全局图像,分别表示为
L
p
,
L
f
\mathcal{L}_{p}, \mathcal{L}_{f}
Lp,Lf和
L
g
\mathcal{L}_{g}
Lg。对于每个基本损失组,按照 [28] 将三元组损失和交叉熵损失与标签平滑结合。因此,总体目标函数为:
L
reid
=
L
p
+
L
f
+
L
g
+
α
L
parsing
\mathcal{L}_{\text {reid }}=\mathcal{L}_{p}+\mathcal{L}_{f}+\mathcal{L}_{g}+\alpha \mathcal{L}_{\text {parsing }}
Lreid =Lp+Lf+Lg+αLparsing
其中
α
\alpha
α是平衡权重,在本文的实验中设置为
0.1
0.1
0.1。
如图 3 所示,查询图像和图库图像之间的最终距离由两部分组成。一是全局特征与前景特征的距离,始终存在。另一个是共享可见人体部分之间的局部特征的距离。匹配策略受到[29]的启发,但是[29]利用了额外的姿态信息,只实现了条纹级对齐,而本文不需要任何额外的语义,可以在像素级识别可见部分。由于
argmax
i
P
i
(
x
,
y
)
\operatorname{argmax}_{\mathrm{i}} P_{i}(x, y)
argmaxiPi(x,y)表示像素
(
x
,
y
)
(x, y)
(x,y)所属的语义部分,可以通过以下方式轻松获得部分
k
k
k否可见的标签
l
k
∈
{
0
,
1
}
l_{k} \in\{0,1\}
lk∈{0,1}:
l
k
=
{
1
,
if
∃
(
x
,
y
)
∈
{
(
x
,
y
)
∣
argmax
i
P
i
(
x
,
y
)
=
k
}
0
,
else
(
i
=
0
,
…
,
K
−
1
)
l_{k}=\left\{
现在查询和图库图像之间的第
k
k
k部分的距离
d
k
d_{k}
dk是:
d
k
=
D
(
F
k
q
,
F
k
g
)
(
k
=
1
,
…
,
K
−
1
)
d_{k}=D\left(F_{k}^{q}, F_{k}^{g}\right) \quad(k=1, \ldots, K-1)
dk=D(Fkq,Fkg)(k=1,…,K−1)
其中
D
(
)
D()
D()表示距离度量,在本文中为余弦距离。
F
k
q
,
F
k
g
F_{k}^{q}, F_{k}^{g}
Fkq,Fkg分别表示查询和图库图像的第
k
k
k个部分特征。类似地,全局和前景特征之间的测量距离公式为:
d
g
=
D
(
F
g
q
,
F
g
g
)
,
d
f
=
D
(
F
f
q
,
F
f
g
)
d_{g}=D\left(F_{g}^{q}, F_{g}^{g}\right), d_{f}=D\left(F_{f}^{q}, F_{f}^{g}\right)
dg=D(Fgq,Fgg),df=D(Ffq,Ffg)。然后,最终距离
d
d
d可以通过以下方式获得:
d
=
∑
k
=
1
K
−
1
(
l
k
q
⋅
l
k
g
)
d
k
+
(
d
g
+
d
f
)
∑
k
=
1
K
−
1
(
l
k
q
⋅
l
k
g
)
+
2
d=\frac{\sum_{k=1}^{K-1}\left(l_{k}^{q} \cdot l_{k}^{g}\right) d_{k}+\left(d_{g}+d_{f}\right)}{\sum_{k=1}^{K-1}\left(l_{k}^{q} \cdot l_{k}^{g}\right)+2}
d=∑k=1K−1(lkq⋅lkg)+2∑k=1K−1(lkq⋅lkg)dk+(dg+df)
如果查询和图库图像的第
k
k
k部分都是可见的,
l
k
q
⋅
l
k
g
=
1
l_{k}^{q} \cdot l_{k}^{g}=1
lkq⋅lkg=1。否则,
l
k
q
⋅
l
k
g
=
0
l_{k}^{q} \cdot l_{k}^{g}=0
lkq⋅lkg=0。据作者所知,ISP 是第一个明确解决的额外语义自由方法遮挡问题。
图 3 ISP 的匹配策略探测图像和图库图像之间的距离是通过始终存在的全局图像和前景部分的特征以及共享可见部分的特征来衡量的。
[2] Caron, M., Bojanowski, P., Joulin, A., Douze, M.: Deep clustering for unsupervised learning of visual features. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 132–149 (2018)
[18] Kalayeh, M.M., Basaran, E., G¨ okmen, M., Kamasak, M.E., Shah, M.: Human semantic parsing for person re-identification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1062–1071 (2018)
[20] Li, D., Chen, X., Zhang, Z., Huang, K.: Learning deep context-aware features over body and latent parts for person re-identification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 384–393 (2017)
[26] Lin, Y., Dong, X., Zheng, L., Yan, Y., Yang, Y.: A bottom-up clustering approach to unsupervised person re-identification. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 33, pp. 8738–8745 (2019)
[28] Luo, H., Gu, Y., Liao, X., Lai, S., Jiang, W.: Bag of tricks and a strong baseline for deep person re-identification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. pp. 0–0 (2019)
[43] Wang, G., Yuan, Y., Chen, X., Li, J., Zhou, X.: Learning discriminative features with multiple granularities for person re-identification. In: 2018 ACM Multimedia Conference on Multimedia Conference. pp. 274–282. ACM (2018)
[52] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., Jiang, W., Zhang, C., Sun, J.: Alignedreid: Surpassing human-level performance in person reidentification. arXiv preprint arXiv:1711.08184v2 (2018)
[53] hang, Z., Lan, C., Zeng, W., Chen, Z.: Densely semantically aligned person reidentification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 667–676 (2019)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。