当前位置:   article > 正文

NFormer: Robust Person Re-identification with Neighbor Transformer—基于Transformer的研究,注意公式简化过程,降低计算成本_agent attention

agent attention

NFormer: Robust Person Re-identification with Neighbor Transformer(NFormer:基于邻居Transformer进行鲁棒行人再识别)

期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:CVPR 2022
代码地址:https://github.com/haochenheheda/NFormer

研究背景

 行人再识别的目的是在不同的摄像头和场景中检索出不同的人物,其中,鲁棒和有区别的表征学习是至关重要的。大多数研究只考虑从单个图像中学习表征,而忽略了它们之间的潜在交互,由于同一性还会发生变化,忽略这种相互作用通常会导致离群特征。文章提出了邻居 Transformer,它显式地模拟所有输入图像之间的交互,从而抑制异常特征,并引导更健壮的整体表示。由于对大量图像之间的交互建模是一项具有许多干扰因素的庞大任务,NFormer 引入了两个新模块,Landmark Agent Attention (LAA) 和 Reciprocal Neighbor Softmax (RNS)。

在这里插入图片描述

 Re-ID 任务的主要挑战之一是由于外部因素,如不同的相机设置,灯光,视角,遮挡,或内在因素,如服装改变,任何个人的外观通常会发生显著变化。因此,在对应于特定个体的表征中存在高度的身份内变异,导致不稳定的匹配和对异常值的敏感性。

论文分析

贡献点如下:

  1. 提出了 Neighbor Transformer Network (NFormer),以有效地在训练和测试过程中建模所有输入图像之间的关系,产生健壮和有区别的特征表示。
  2. 提出了 Landmark Agent Attention (LAA),通过在表示空间中引入少量地标代理来减少亲和矩阵的计算成本。
  3. 提出了 Reciprocal Neighbor Softmax (RNS)函数,来实现邻居的稀疏关注,RNS 显著地约束了不相关个体之间的噪声交互,使表示聚合过程更加有效和高效。

NFormer网络框架

采用ResNet50 作为骨干网络,其中运用到 SGD 作为优化器,Transformer 框架。
在这里插入图片描述

1、Learning NFormer

 通常,f(·) 是针对单个输入图像进行计算的,忽略了跨相机和场景的相同身份人的表示之间可能出现的关系,为了能利用这层关系,作者引用函数来聚合表示向量 ui:
在这里插入图片描述
其中在这里插入图片描述包含了所有通过特征提取出来的向量。通过使用 Transformer 对向量公式进行了进一步改进:
在这里插入图片描述
其中 A 是一个包含任意两对输入表示向量之间相似性的亲和矩阵Zi,Zj。s(·)是将亲和转化为权值的 softmax 函数,φv(·)是线性投影函数。那么亲和矩阵 A,则有

在这里插入图片描述

2、Landmark Agent Attention( LAA )

在所有输入图像的训练和测试中,鼓励每个身份的低表示变量是至关重要的。

在这里插入图片描述
 如图所示,在 Transformer 之后,以表示向量z∈RN×d为输入,通过三个独立的线性投影φq(·)、φk(·)、φv(·)得到查询矩阵、键值矩阵q、k、v∈RN×d。在输入 z 中随机采样 l 个样本得到 zl ,然后生成 kl 和 ql ,这样特征就从 N × d 降为 l × d 。将原始的 q 和 k 通过与 kl 和 ql 分别相乘,得到在这里插入图片描述;最后,将大的亲和映射A ∈ R N × N 的计算分解为两个低秩矩阵q, k的乘法,得到:

在这里插入图片描述

3、Reciprocal Neighbor Softmax

 在得到亲和力矩阵 在这里插入图片描述 之后,可以将式(2) 改写为两部分的和,在这里插入图片描述在这里插入图片描述,ρ 作为区别权重大小的一个小的阈值,前半部分表示的是注意权重小的元素和,后半部分表示的权重大的和。

 虽然在这里插入图片描述表示的权重比较小,但是随着样本 N 的增大,总和也会增大。因此,不相关样本的存在会对 ui 的最终计算产生负面影响。如图 (a) 所示。
在这里插入图片描述

为了解决计算成本大的问题和大量不相关样本的影响,文章建议使用 RNS 来对等邻居掩码强制稀疏到少数相关注意权重。

在这里插入图片描述

这里的意思就是 A 矩阵中每行 attention weights 前 k 个最大的置为1,其余的置为 0,然后使用下面计算生成一个 mask M:
在这里插入图片描述
通过将这个掩码 M 添加到常规的softmax函数中,实现了只发生在邻居的稀疏注意力,这增加了对更多相关图像的关注。RNS公式如下:
在这里插入图片描述

如图 (b)所示,由于大多数注意值都被设置为0,因此关系被限制到相关的邻居,使得式 (2) 中的聚合更加集中和健壮。此外,由于我们不需要对权重为零的元素进行加法运算,特征聚合的时间复杂度从O(N 2d) 显著降低到 O(N kd),降低了计算。

在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

总结

 本文提出的用于人员再识别的 NFormer 网络,它在输入图像之间相互作用,以产生更多的鲁棒性特征和判别表示。与大多数现有的专注于单个图像或训练批中的少数图像的方法相比,作者提出的方法对所有输入图像之间的关系进行建模,包括跨相机和不同背景等信息。首先,提出了 LAA 组件,旨在允许更有效地建模大量输入之间的关系,以及一个 RNS 组件,以实现对邻居的稀疏关注。因此,NFormer 在大量输入的情况下伸缩性很好,并且对异常值具有鲁棒性。在广泛的消融研究中,表明 NFormer 学习了鲁棒的判别表示,可尝试与第三种方法结合使用。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/136588
推荐阅读
相关标签
  

闽ICP备14008679号