赞
踩
2022-ECCV CCF-B类
代码无
背景:
RGB和IR图像之间的跨模态差异,如何缩小两种模式之间的差距?
一 模态共享特征表示
1.首先实现模态统一,然后学习模态共享表示【3,14,28,29】
2.设计各种双流架构来学习模态共享特征。【37,7,8,18】
3.通过联合利用像素对齐和特征对齐,提出了一种端到端对齐生成对抗性网络【29】
4.模态感知协同集成学习方法,该方法具有中层可共享的双流网络【37】
5.通过对VI-ReID的神经结构搜索来利用最优的双流结构【7】
缺点:方法通常忽略模态特有的特征,这限制了特征表示的判别能力的上限。
二模态补偿
1.利用生成对抗性网络生成多光谱图像以补偿缺乏的特定信息【32】
2.跨模态共享特定特征转移算法,以探索模态共享信息和模态特定特征的潜力
Lu, Y., Wu, Y., Liu, B., Zhang, T., Li, B., Chu, Q., Yu, N.: Cross-modality person
re-identification with shared-specific feature transfer. In: Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. pp. 13379–13389 (2020)。
补偿特征仅基于当前小批量的样本产生。该策略存在一定的随机性,当样本处于不同的小批量时,会导致生成的模态特征不一致。
所以提出想法:表示全局模态信息建模几个模态原型。这里是模态级对齐模块。
类内部差异大,例如视点、光照、背景杂波等,相同模态下,相同ID的不同样本的特征分布差异很大,大部分是利用监督三重体损失来减少训练集中相同ID的特征之间的距离。但是训练集和测试集的类别没有重叠,在训练集上学习到的判别表示对于测试图像可能不是最优的。
所以提出想法,动态实例级对齐。
本篇论文为了解决上述问题,文章提出新的跨模态转换器(Cross-Modality Transformer, CMT)来分别探索 模态级对齐模块(Modality-level Alignment Module) 和 实例级对齐模块(Instance-level Alignment Module) 的 VI-ReID。
采用 ResNet50 作为骨干网络,减小了的步幅从 2 到 1 的最后一个卷积块。对于每个小批量,从每个模态中随机选择 8 个身份,并为每个身份抽取 8 个人物图像
CMT 主要由两个模块组成:(1) 模态级对齐模块旨在通过 Transformer 的编码器-解码器结构来补偿模态特定信息的缺失。(2) 实例级对齐模块自适应地调整样本特征,这是通过查询自适应特征调制来实现的
现单模态行人重识别工作主要集中在表示学习与度量学习。
为了实现模态级对齐,文章遵循 Transformer 的架构,设计了一个表示编码器(Representation Encoder)和一个模态补偿解码器(Modality Compensation Decoder),能够自适应补偿模态特殊信息的缺失。与以往依赖于小批量信息的模态补偿方法不同的是,文章设计了两组可学习的模态原型来提供全局模态信息,从而实现更鲁棒的模态补偿。
Representation Encoder.表示编码器
输入图片→特征提取器→FR/FI部分特征作为Transformer Encoder的输入。采用基于 ResNet-50 的双流网络作为 RGB 和 IR 模态的特征提取器,其中前两个阶段是参数独立的,后三个阶段是参数共享的。具体做法:首先使用特征提取器 φ 来提取给定可见光图像和红外图像的特征映射。然后,按照基于部分特征的方法,使用区域池化策略将特征图水平分割为 p 个不重叠的部分(作为部分特征)。通过以上操作,RGB 和 IR 图像可表示为
(
f
R
f^{R}
fRi表示模态的第i部分特征)
和
通过这种方式,RGB和IR的图像由部分特征表示,作为Transformer Encoder 的输入**。
在 representation encoder表示编码器 中采用注意力机制来捕获局部人体部位之间的关系:
将部分特征作为查询Q、关键字K和值V(QKV的理解)。我们通过独立的线性投影层(independent linear projection layers)生成(Q,K,V)三元组
其中
W
Q
W^{Q}
WQ∈
R
d
×
d
R^{d×d}
Rd×d,
W
K
W^{K}
WK∈
R
d
×
d
R^{d×d}
Rd×d,
W
v
W^{v}
Wv∈
R
d
×
d
R^{d×d}
Rd×d为线性投影,Q、K、V ∈
R
d
×
d
R^{d×d}
Rd×d。
通过 scaling operation (缩放操作)和 Softmax 归一化的内积得到查询 Q 和键 K 之间的注意力权重,根据注意力权重,可得到经过细化的部分特征值作为 V ∈
R
d
×
d
R^{d×d}
Rd×d的加权和。
这部分属于 Transformer 常规操作
Modality Compensation Decoder.模态补偿编码器
在模态补偿解码器中,引入可学习的模态原型分别表示 RGB 和 IR 模态的全局模态信息,可表示为:
其中
P
R
P^{R}
PRi是IR模态中第i部分特征的模态原型。
按照 Transformer 的标准结构,首先使用一个自注意力层来在原型之间合并本地上下文信息,与 Representation Encoder 类似,但这里的键、查询和值都是来自于 IR / RGB 模态原型。随后,通过模态原型与部分特征之间的 交叉关注 来弥补缺失的模态特征。
经过特征提取器之后的特征向量,再经过 Representation Encoder 得到的输出为:
以 RGB 特征为例,来解释模态补偿的整个过程,IR 模态原型
P
I
P^I
PI用来补偿查询
Q
I
Q^I
QI,部分特征
F
R
~F^R
FR作为模态补偿的键
K
R
K^R
KR和值
V
R
V^R
VR。经过模态补偿之后:
理解:IR的modality prototype当做query,RGB的特征当做key和value,以此形成跨模态transformer中比较常用的交叉注意力。
然后就可以得到查询
Q
I
Q^I
QI和键
K
R
K^R
KR之间的 dot-production attention 得分,可看作是模态原型与部件特征之间的软对应。
为了弥补缺失的情态特征,可以根据注意权值将部分特征投影到相应的情态空间中,具体来说,补偿后的 IR 部分具有如下特征:
RGB 样本为所有值
V
R
V^R
VR的加权和:
公式理解:然后通过Q和K的计算得到IR modality prototype和RGB特征的soft correspondence,在这个soft correspondence下,通过矩乘的方式与RGB的V计算后得到compensated IR part features(也是个attention操作)
最后,结合原始特征和补偿后的模态特征,得到完整的模态特征:
其中 R 和 I 分别是完整的 RGB 和 IR 模态特征。这些完整的特征位于共享嵌入空间当中,在共享嵌入空间中,具有不同模态的样本可以很好地对齐。通过这种方式,模态补偿解码器可以实现鲁棒的模态级对齐并弥合跨模态差异,从而促进更好的跨模态检索。
Modality Consistency Loss.
由于没有补偿模态特征的 ground truths(标准答案),解码器学习起来相当困难。为了解决这个问题,作者设计了模态一致性损失来指导模态原型的学习,它用真实的IR 特征去约束compensated IR 特征
具体实现如下:首先计算小批量中两个模态的每个单位的两个质心特征:
其中,
F
R
F^{R}
FRi,j,
F
I
F^{I}
FIi,j表示小批中第 i 个人的第 j 个 RGB/IR 图像特征,CRi, CIi表示第 i 个人的 RGB/IR 形心特征。基于质心,定义 RGB/IR 模态一致性损失
L
R
LR
LRcyc和
L
I
LI
LIcyc为:
在模态一致性损失的约束下,模态原型必须学习相应的模态信息来接近真实的模态特征,从而实现更可靠的模态补偿。
ID Loss.
为了引导完整的特征 R 和 I 能够集中在与 ID 相关的判别信息上,作者设计了一个由身份分类损失
L
L
Lcls和基于异质中心的三元组损失
L
L
Lhc_tri组成的 ID 损失,公式为:
其中 p() 是正确预测的概率,E 表示期望。式 (11) 中,
C
C
Ca为当前小批中 RGB 特征 R 或 IR特征 I 计算出的质心特征。
C
C
Ca和
C
C
Cp形成了属于同一个人不同模态的正样本,
C
C
Ca和
C
C
Cn形成了属于不同行人的负样本,α 为间隔参数margin parameter。
为了解决由视角变化、背景杂波等较大的类内变化所引起的同一个 ID 身份的不同样本特征分布的巨大差异的问题,文章提出实例级对齐模块,在模块中,利用给定查询的特征,通过查询自适应调制器自动适应实例特征。具体来说,调制器采用仿射变换通过学习到的调制参数来激发与查询相关的通道。
Parameter Generator.
实例级对齐模块是可见和红外模态的对齐。给定 RGB 或 IR 模态中当前 mini-batch 中的任意样本特征 X∈
R
p
×
d
R^{p×d}
Rp×d,将其作为(查询特征)query,并将其转换为(调制参数)modulation parameters,提出两个参数发生器
g
g
gγ和
g
g
gβ来获得(通道级)channel-wise(调制)modulation参数,即缩放参数 γ 和移动参数 β。
每个生成器包含两个线性层,第一层后面是一个 ReLU 激活函数。调制参数 γ 和 β :
其中γ,β∈Rd,GAP表示全局平均池,用于聚合部分特征。
经过端到端训练后,参数生成器 gγ 和 gβ 可以提取(查询特征)query feature中的(关键特征)characteristics,并将它们投射到(调制权重)modulation weights中,表明哪些通道可以在实例级对齐中有用。参数生成器是来调制其他样本,而不是增强样本本身。
Query-adaptive Modulation.
调制参数揭示了 X 最具鉴别性的模式,并用于对当前小批中的其他样本特征 Y 进行查询自适应调制,以实现实例级对齐。具体来说,查询自适应调制层在 Y 上通过缩放参数 γ 和移动参数 β 进行仿射变换:
其中 ⊙ 表示逐点向量乘法,
Y
Y
Yi表示样本 Y 的第 i 部分特征,
¯
Y
¯Y
¯Yi是经过调制之后的特征。在调制过程中,基于 γ 和 β 的调制权值,可以增强 Y 中与查询相关的通道,抑制不相关通道。通过这种方式,与查询具有相同 ID 的实例可以更好地排列在一起。在测试过程中,查询自适应特征调制将根据查询特征调整图库表示,促进了查询与相同 ID 的图库对齐,有助于更好地检索。
Modulation Discriminative Loss.调制判别损失
为了帮助调制特征保持识别能力,作者提出调制判别损失来抑制调制特征,其形式与三元组损失类似:
其中 X 和
¯
Y
¯Y
¯Yp组成属于同一个人的正特征向量对,X和
¯
Y
¯Y
¯Yn组成属于不同人的负特征向量对,α 是一个间隔参数。
3、Training and Inference
总损失如下:
在测试阶段,首先提取查询特征,然后根据查询特征生成调制参数,来调整(图库)gallery的(特征嵌入)fature embedding。最后,将特征维重构为
R
p
×
d
R^{p×d}
Rp×d,用于特征检索。
数据集
SYSU-MM01 组成是6台摄像机(4台可见光,2台红外)的第一个大规模VI ReID基准数据集。287628张可见图像和15792张红外图像。训练集包含395人,包括22258张可见图像和11909张红外图像。测试集包含96个人,3803张IR图像可供查询,301/3010张(单次/多次拍摄)随机选择的RGB图像作为图库。同时包含两种不同的测试设置,所有搜索和室内搜索设置。实验设置的详细描述见[34]Wu, A., Zheng, W.S., Yu, H.X., Gong, S., Lai, J.: Rgb-infrared cross-modality person re-identification. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 5380–5389 (2017)
RegDB 1个可见光,1个红外相机的双相机系统收集。有412个身份(206个身份训练,206个身份测试),和8240个图像。对于每个人,有10个可见图像和10个红外图像。测试阶段还包含两个评估设置。一种是对红外可见以从RGB图像中搜索IR图像。另一个设置是“红外”到“可见”,用于从红外图像中搜索RGB图像。评估程序重复10次试验,以记录平均值
评估协议
使用两个评估指标来衡量绩效。
第一个是累积匹配特性(CMC)曲线。CMC表示查询标识出现在不同大小的候选列表中的概率。我们在实验中报告了秩为1,10,20的准确度。
另一个是平均精度(mAP)。
关于行人重识别ReID中的CMC和mAP点击链接
其中包含评价标准,Rank1,Rank2。。。等的理解。
实施细则
图解:Venue地点,single-shot是指每个行人在每个场景中只有一幅图像;multi-shot是指每个行人在每个场景中对应一个视频或者若干图像序列。Rank代表命中的次数。mAP(mean Average Precision)均值平均精度,查准率(AP)的平均值。衡量检测精度的指标,反应检索的人在数据库中所有正确的图片排在排序列表前面的程度。计算公式:
mAP=所有类别的平均精度求和除以所有类别。即查询返回的结果中,有多少结果是与query的ID相同的。
所提出的方法是用PyTorch框架在单个RTX3090Ti GPU上实现的。根据现有的方法[33,25,20],我们选择在ImageNet上预训练的ResNet50[10]作为骨干网络,并减少从2到1的最后一个卷积块。对于每个小批量,我们从每个模态中随机选择8个身份,并为每个身份采样8个人图像。
首先将输入图像的大小调整为384×144,然后我们采用零填充的随机裁剪、随机水平翻转和随机擦除来增加数据。此外,我们使用Adam优化器进行优化,初始学习率为3.5×10−4,权重衰减设置为5×10−4。我们在60和90个时期将学习率分别衰减0.1和0.01。整个训练过程由120个时期组成。零件特征的数量p设置为6。炒作参数λ设置为0.2。
与最新方法进行比较
我们在所有搜索和单次搜索设置下,将我们的CMT与各种最先进的方法进行了比较。如表1所示,我们的CMT在所有设置中排名第一或第二,并在所有搜索设置中设置了最先进的结果,这有力地证明了我们方法的有效性。在室内搜索环境中,我们的方法也可以与最先进的方法进行比较。根据这些结果,我们有以下观察结果。(1) 与仅通过特征解纠缠来学习模态共享特征的方法(cmGAN[4]、Hi-CMD[3]、AlignGAN[29])相比,我们的方法在所有设置下都取得了更好的性能。这是因为模态共享特征丢失了一些有用的身份信息,例如颜色。因此,仅在模态共享线索的情况下,特征表示的辨别能力的上限是有限的。不同的是,我们设计了一个模态级对齐模块来自适应地补偿当前小批量的样本。该策略具有一定的随机性,与大多数方法的默认单查询设置不匹配。
值得注意的是,我们引入了几个模态原型来存储全局模态特征,而不依赖于当前的小批量。(3) 与基于GAN生成的跨模态配对图像之间的实例级对齐的JSIA ReID[28]相比,我们的方法在所有结果中都获得了更好的性能。这是因为与JSIA ReID不同,我们利用查询自适应特征调制来进行更多样、更灵活的实例级对齐。在我们的方法中,可以根据查询特征自适应地细化库实例,而其他方法则不考虑这一点。
消融实验
在本节中,我们在所有搜索设置下对SYSU-MM01数据集进行了详细的消融研究,以评估CMT的每个组件。我们将模态级对齐模块表示为MAM,将实例级对齐模块称为IAM。结果如表3所示。
图解:在所有搜索设置下,方程(15)中的权重λ对SYSU-MM01数据集的影响以及RegDB数据集上的部分数p。报道了Rank-1和mAP(%)
**基线:**我们采用HCT[18]作为我们的基线方法,该方法探索具有共享参数的双流网络,并使用基于异中心的三重态损失,改善了传统的三重态损失。此外,我们将优化器替换为Adam优化器,并添加随机擦除作为额外的数据扩充。具体实施情况见实施细则。
模态级别调整的有效性与基线模型相比,模态水平比对模块将Rank-1的准确率和mAP分别提高了5.2%和2.23%。这些改进主要归因于两个原因。一方面,我们通过模态一致性约束自动探索模态原型,可以自适应地学习模态相关信息。另一个原因是,我们通过变换器进行模态特征补偿,可以将不同模态的特征投影到一个共同的完整空间中,以实现更好的模态级别对齐。
实例级别对齐的有效性与基线模型相比,添加实例级对齐,性能大大提高了2.98%,最高可达67.25%的mAP。此外,在模态级对齐的基础上,实例级对齐仍然可以实现2.07%的mAP改进。这表明实例级别对齐对于减少同一类中样本的距离非常有用。我们的CMT的完整版本在所有搜索设置下都在SYSU-MM01数据集上给出了最好的结果,在Rank-1和mAP中分别获得了6.53%和4.3%的惊人准确率,这证明了CMT的有效性。
在本文中,我们提出了一种新的跨模态转换器(Cross-Modality Transformer, CMT)来共同探索VIREID的模态级对齐模块和实例级模块。所提出的模态级对齐模块能够通过Transformer编码器-解码器体系结构补偿模态特定信息的缺失。我们还设计了实例级对齐模块,通过查询自适应特征调制实现样本特征的自适应调整。在两个标准基准上的大量实验结果表明,我们的模型优于最先进的方法.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。