赞
踩
通过多粒度图像文本对齐改进基于描述的行人重识别
原文链接:
摘要:基于描述的行人重识别是视频监控中的一项重要任务,需要有区别性的跨模态表征来区分不同的人。由于模态的异质性(交叉模态问题),直接测量图像和描述文本之间的相似性是困难的,并且所有的样本属于单个类别(细粒度问题)使得这个任务比传统的图像描述匹配任务更加困难。本文提出了一种多粒度图像-文本对齐(MIA)模型,以解决基于描述的行人重识别的交叉模态细粒度问题。具体来说,有三种不同的粒度,即全局-全局、全局-局部和局部-局部对齐是分层次进行的。首先,全局对比(GC)模块中的全局-全局对齐用于匹配图像和描述的全局上下文。其次,在关系引导的全局-局部对齐(RGA)模型中,全局-局部对齐利用局部part与全局上下文之间的潜在关系来突出可区分的组件,同时自适应地消除为涉及的组件components。然后,对于局部-局部对齐,我们采用双向细粒度匹配(BFM)方法将图像人体part和名词短语进行匹配。结合多粒度的整个网络可以端到端的训练,无需复杂的预处理。针对多粒度组合训练的困难,提出了一种有效的分步训练策略,对多粒度组合进行分步训练。大量的实验和分析表明,我们的方法在CUHK-PEDES数据集上获得了SOTA性能,并以显著的优势优于先前的方法。
基于描述的行人重识别因为现有的模态异质性使得难以直接测量图像和描述之间的跨模态相似性。虽然传统的图像和描述匹配问题已经被广泛研究,但是在基于描述的行人重识别的任务中存在特定的差异。该任务中的所有图像都属于同一类别,即行人类别(细粒度问题),这使得该任务比仅处理模态异构性更困难。
图1. 基于描述的行人再识别(Re-id)的细粒度问题。基于描述的行人识别(CUHK-PEDES数据集,六个不同的人)中的图像比图像-文本匹配任务(MS-COCO[21]数据集)中的图像更难区分,因为它们都属于同一类别,即行人类别。
若直接使用传统图像文本匹配中解决细粒度问题方法,存在一些问题:可以基于外部线索(如姿态)预处理的局部part提取方法[30][56]需要在行人数据集上进行进一步的微调甚至是预先重新训练。这样他们就可以为Re-id后续的细粒度匹配提供更准确的组件。但基于描述的人Re-id数据集中没有对身体部位或身体分段的标注,使得调整或再训练更加困难。
基于区域的方法[1]和[24],它们需要属性级别的注释(如图2a),但是基于属性的注释在行人数据集中也是不可用的。
使用细粒度的基于部件的方法会存在的问题:一个图像可能对应多个单独的单词部分描述,如图所示的部分的“yellow bag slung”图2 (b)。因此,简单的文本分区,例如,自然将句子分成单独的词,不适合图像描述细粒度匹配。另一方面,在使用文本词检索匹配图像部分时,由于模态异构,也存在一些歧义。具体来说,如图2 (c)所示,“白裙子”可以指来自不同人群的几个视觉成分,包括不同款式和尺寸的裙子,覆盖人体的不同区域和部位。而细粒度匹配中的这些歧义可能会导致基于描述的人员Re-id的检索混淆和损害检索的准确性。因此,跨模态细粒度匹配需要自适应局部组件对齐。
图2(a)基于描述的person Re-id中细粒度属性级别区域的图示。(b)图像句子对中未涉及组件的图示。描述中未提及腿和鞋,且不应有助于视觉表现。(c) 当使用文本词检索匹配的图像组件时,由于模态的异质性而产生歧义。“白色裙子”可以指来自不同人群的多个视觉组件,其中包含不同风格和尺寸的裙子,覆盖人体的不同区域和部位。
此外,仅采用细粒度的组件匹配是不够的,因为它忽略了局部组件和全局上下文之间的潜在关系。更具体地说,在图像-句子对中,跨模态的全局-局部关系可以作为过滤器来消除其他模态中不涉及的成分。例如,在图2 (b)中,腿和鞋没有在描述中提到,因此这些属性不应该相应地对视觉语义表示作出贡献。在本例中,句子描述提供了有助于忽略无关视觉线索的跨模态信息,这也适用于使用视觉信息来删除无关文本组件的情况。基于关系引导的过滤过程,我们可以获得更好的聚合表示,以测量更准确的跨模态相似性。
除了细粒度组件匹配和关系引导匹配考虑细粒度问题以增强特征的区分,全局上下文在人的Re-id中也很重要 。这是因为全局上下文包含更多的信息,不仅包括局部成分,还包括它们的空间关系(主要是图像)和顺序(主要是描述)。这些潜在的语义方面也有助于更准确地识别行人。总的来说,如图3所示,我们将前面的细粒度组件匹配、关系引导匹配和全局上下文匹配作为不同粒度来分层进行多粒度交叉模态对齐。三种粒度可以相互补充,提供综合的交叉模态相似度评价。
虽然我们的方法可以端到端训练,但这并不意味着同时训练所有模块就是一个好的训练策略。事实上,多粒度的组合给训练带来了一定的困难。一方面,局部成分和全局语境位于不同的语义层次,在训练中使用的目标也有所不同。更具体地说,全局上下文不仅包含局部成分,而且还包含它们的潜在依赖关系(例如,图像中的空间关系和描述中词的顺序),因此它们与个人身份的相关性比局部成分更紧密。而且他们更适合在个人身份的监督下进行训练,而不仅仅是交叉模式匹配。另一方面,局部part提取方法不可避免地会给细粒度构件表示带来一些歧义。例如,多个属性或不完整属性可能被分成单个图像部分,当训练在一起时,这个问题很可能会影响全局特征提取。因此,我们通过实验发现,层次化分步训练全局上下文和局部成分更为有效。
主要贡献如下:·为了缓解跨模态的细粒度问题,提出了一种基于描述的行人Re-id的多粒度图文对齐模型。分层地执行三种不同的粒度,即全局-全局、全局-局部和局部-局部对齐。它们考虑匹配全局上下文,分别使用全局-局部关系过滤不涉及的组件和双向细粒度匹配,以实现更精确的跨模态匹配。该方法是端到端可训练的。
为了更好地训练多粒度的组合,提出了一种有效的分步训练策略,对整个模型进行分步训练。
我们在CUHK-PEDES数据集上获得了最先进的性能,并且显著优于其他以前的方法。
图4. 我们解决方案的总体框架。该框架主要包括两个部分:(A)全局和局部表征提取和(B)多粒度图文对齐模型。不同块上的数字分别表示他们按照我们的分步训练策略进行训练的步骤。
在(a)部分,使用卷积神经网络(CNN)来提取图像路径中的视觉特征图。然后将路径分为全局上下文特征和图像局部特征两个分支。我们依次使用全局平均池化层和全连接层(FC层)来获得全局视觉表示。采用1×1卷积和局部平均池化mean pooling的方法对各个图像部分进行特征提取。在文本路径上,句子编码和短语编码共享相同的双向门控递归单元(Bi-GRU)模型,有不同的FC层。
对于(b)部分中的MIA模型,主要有三个模块,分别对应于三个粒度。更具体地说,全局对比Global Contrast(GC)模块用于执行全局-全局对齐。它使用全局视觉和文本上下文表示来获得基本的全局-全局相似性。关系引导的全局-局部对齐(RGA)模块用于全局-局部关系过滤,它利用跨模态关系对齐来过滤不涉及的属性,以获得更好的聚合表示。并且在RGA模块中计算中间的全局-局部相似度。然后,基于训练好的细粒度局部分量,采用双向细粒度匹配(BFM)模块进行局部-局部对齐。通过对不同粒度的这三个模块进行分层组合,可以得到更全面的跨模态相似度评估。
Global Contrast (GC): 对于图像I,将来自CNN的特征图依次通过全局平均池化层和FC层来获得全局视觉上下文表示I∈RV,V表示图像表示的维度。对于描述T,我们首先将T中每个单词w∈RW 嵌入到嵌入向量x∈RE中
其中We∈RE×W是嵌入矩阵。符号E表示单词嵌入的维度,W表示vocabulary size。然后我们通过Bi-GRU依次输入所有这些向量,
我们将最后时间步的前向隐藏态和后向隐藏状态连接在一起,使用句子FC层来获得描述T的最终表示T∈RC
其中,Wg∈RC×2H和bg∈RC是描述T的句子FC层中的参数。C表示语句表示的维度,[·,·]表示两个向量的连接。通过下式计算图像I和描述T之间的全局-全局相似度sG
其中,sim(·,·)表示视觉表示I和文本表示T之间的相似性函数。
Relation-Guided Global-Local Alignment (RGA):
在获得视觉人体part和文本名词短语后,直接使用这些细粒度的局部成分进行跨模态匹配是不合适的,因为存在模态的异构性和不完善的划分方法造成了一些歧义,而且局部分量表示还没有得到很好的训练。因此,我们采用注意机制,首先进行关系引导的全局局部对齐,以提高局部part表示的质量。并且基于注意力聚集的表示和全局上下文可以获得中间的跨模态相似度。
对于图像I,我们得到与[42]之后不同的非重叠图像部分相对应的n个局部特征,P1,...,PN∈RP,其中 P表示图像part特征的维度。对于描述T,我们使用自然语言工具包(Natural Language Toolkit,NLTK)[4]进行句法分析、分词和词性标注,得到了几个名词短语。该提取过程可以与训练过程一起动态处理,有利于端到端的训练。与整个描述语句编码类似,我们使用公式1和公式2,并在其中使用另一个FC层
用于获得名词短语的表示N∈RN,其中N是名词短语特征的维度。WL∈RN×2H和bl∈RN是名词短语FC层中的参数。我们不限制从一个句子中提取的名词短语的数量m,即不同的描述句子的m是不同的,得到了N1,N2,...,Nm∈RN的特征。
基于图像部分表示P1、P2、...、Pn和名词短语表示N1、N2、...、Nm,有两个方向相反的关系引导的全局-局部对齐模块,即图像引导的短语对齐(T→I)和句子引导的part对齐(I→T)。图5显示了I→T方向作为示例。我们首先使用跨模态注意方法来确定所有图像part P1、P2、…、Pn与全局文本上下文T之间的关系Vi。具体地说,每个Vi由以下公式计算
MLPV(·)表示视觉部分的多层感知器,即图4中的MLP-V-RGA,sim(·,·)表示PiT和T. 之间的相似度函数
选择性地将part 表示pi聚合到关系指导的视觉表示IR中。该特征聚合过程由全局-局部关系指示符vi来监督,该指示符指示不同图像part和整个描述之间的语义相关性。之后,I → T方向的中间跨模态相似性为
这被认为是我们的MIA模型的中间层次RGA内的全局-局部相似性。
类似地,我们可以通过以下方式获得在相反的T → I方向上的关系引导的文本表示
MLPT(.)表示名词短语的多层感知器,即图4中的MLP-T-RGA。并且在关系引导的全局-局部比对之后,在T → I方向上相应的中间相似度为
Bi-Directional Fine-Grained Matching (BFM):
图6显示了P→N方向的示例。我们首先选择一个名词短语,例如,N1是Dark Slack,并评估N1与所有图像部分P1,P2,…,Pn之间的相似度。然后我们参考这些相似度值并使用注意力机制自适应地获得与单个名词短语相关的组合视觉表示,I1∈ RP,如图6中的金色路径所示。
对每个名词短语特征Nj使用相同的步骤,我们可以获得与单个名词短语相关的所有组合视觉表示I1,I2,…,Im∈RP
MLPT(·)表示名词短语的多层感知器MLP-T-BFM,MLPV(·)表示视觉部分的MLP-V-BFM,如图4所示;sim(·,·)表示两个特征向量之间的相似度函数,exp(·)表示指数运算。在获得I1,I2,…,Im,P→N方向的局部-局部相似性为
类似地,在相反的N→P方向上,我们可以得到与单个图像部分相关的组合文本表示~T1,T2,...,TN∈RN
N-→P方向的局部-局部相似度为
Similarity Fusion:
GC模块中的sG可以看作是全局-全局相似度,而RGA模块中的中间全局-局部相似度SI和ST。在BFM模块顶层中,Sp和SN被认为是局部-局部的相似性。为了正确融合这些相似性,我们引入了两个超参数来调整它们的比例,
其中sF表示最终融合的跨模态相似度,sR和sL表示分别平均RGA和BFM模块中的两个相反方向后的相似度。
Learning Procedure
目标:训练中使用两种不同的目标,identity objective and matching objective。身份目标来源于行人的身份(ID)可以看作是对图像和描述进行分类的类别,而匹配目标通常用于传统的跨模态检索。
ID目标:将训练集中不同的ID作为类别的个数,将图像和描述分别归入相应的ID类别。身份目标的损失是
匹配目标:基于hinge的triplet匹配目标在图文匹配任务中显示出了它的优势[12],[24]。参考文献[12],我们采用铰链损失之和LM作为匹配目标:
其中I和T分别表示图像和句子表示。(I,T)和(T,I)表示匹配的图像和描述对,(I,^T),(T,^I)表示不匹配的对。S(·,·)表示两个样本之间的相似度。
讨论:上述两个目标有不同的关注点。身份目标将不同图像对应的描述进行分类,同时将同一个人归入同一身份类别。然而,图像的描述可能与同一ID类别中的其他图像存在某种不匹配。换句话说,身份目标在处理细粒度匹配时有点弱。因此,身份目标更像是一个松散的约束,适合于训练中的初始化initialization,以消除明显的不匹配对。至于匹配目标,它更严格,因为它将一副图像的注释描述视为属于同一个人ID的其他图像的负匹配样本。因此,匹配目标可用于学习图像与其对应描述之间更精确的跨模态关系,这更适合用于微调finetuning.。
训练策略: 训练策略包含三个步骤,分别对应于我们的MIA模型中的三个模块,即GC、RGA和BFM模块。在第一步中,我们只使用ID目标来初始化与全局表示相关的参数,这些参数用数字1来注释,不微调预先训练的视觉CNN,而是专注于从头开始训练文本路径和全局视觉FC层。第一步的总损失函数为
在第二步中,我们的目标是在训练的全局上下文下训练细粒度组件表示,因此我们额外使用了更适合精确微调的匹配目标。正如图4中数字1和2,参数(包括视觉CNN)由身份目标和匹配目标一起微调,整体损失函数为
其中LGM表示GC模块中全局表示的匹配目标。LI−TM和LT−IM分别表示RGA中两个方向相反的匹配目标。
最后,我们固定了BFM模块中用于训练中的part和短语的两个MLP之外的其他参数,如图4中数字3。损失函数是
LP−NM和LN−PM是BFM模块中两个相反方向的匹配目标。
讨论:在提出的分步训练策略中,身份目标只用于训练全局上下文,而不训练局部组件,原因是只有全局表示与Person ID具有更紧密的相关性,具体而言,不同的人可能具有相似的局部组件,即局部组件与Person ID没有紧密的相关性,因此使用身份目标对局部组件进行分类有点不合适。
实验结果
对我们方法的消融研究进行可视化分析。(a) 关系引导注意在RGA模块中的有效性。我们提供I→ T方向为例,即图像部分与整体文本语境之间的关系。红色表示注意力后权重最大的部分,黄色表示第二权重最大的部分。绿色和蓝色用于权重最小的part。描述中带下划线的属性与图像中权重最大的两个部分相关,这两个部分是更准确的人物识别最可区分的属性。相比之下,与描述中未涉及的组件相关的图像部分的权重最小。(b) BFM模块中细粒度匹配的有效性。这两个例子是使用名词短语来关注图像部分(P→ N方向)。红色表示部分短语注意力后的部分与短语最相似(权重最大),黄色表示第二相似。
图8。不同粒度检索结果的比较。“GC+BFM”和“GC+RGA”模型的性能优于“GC”模型,我们的“MIA”方法通过组合多粒度获得最佳检索结果。以上面的一个为例,使用“黄色短袖衬衫”可以检索到许多穿着黄色衬衫的人,但细粒度属性“reading a small pamphlet阅读小册子”是区分正确行人和其他行人的关键语义概念。如右图所示(与图7中的颜色含义相同),“阅读小册子”部分的权重最大,“黄色短袖衬衫”部分的权重仅次于关系引导注意。相反,底部两部分的权重最小,因为查询描述中没有提到腿和鞋。下面的例子也可以用类似的方式来解释。
图9 失败案例分析。我们提供了一些失败案例,其中我们的MIA模型无法检索前十名结果中的ground truth图像。这些情况大致可分为两种不同的情况:(a)不完全覆盖和(b)模糊描述。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。