赞
踩
期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:CVPR 2022
代码地址:https://github.com/haochenheheda/NFormer
行人再识别的目的是在不同的摄像头和场景中检索出不同的人物,其中,鲁棒和有区别的表征学习是至关重要的。大多数研究只考虑从单个图像中学习表征,而忽略了它们之间的潜在交互,由于同一性还会发生变化,忽略这种相互作用通常会导致离群特征。文章提出了邻居 Transformer,它显式地模拟所有输入图像之间的交互,从而抑制异常特征,并引导更健壮的整体表示。由于对大量图像之间的交互建模是一项具有许多干扰因素的庞大任务,NFormer 引入了两个新模块,Landmark Agent Attention (LAA) 和 Reciprocal Neighbor Softmax (RNS)。
Re-ID 任务的主要挑战之一是由于外部因素,如不同的相机设置,灯光,视角,遮挡,或内在因素,如服装改变,任何个人的外观通常会发生显著变化。因此,在对应于特定个体的表征中存在高度的身份内变异,导致不稳定的匹配和对异常值的敏感性。
贡献点如下:
采用ResNet50 作为骨干网络,其中运用到 SGD 作为优化器,Transformer 框架。
通常,f(·) 是针对单个输入图像进行计算的,忽略了跨相机和场景的相同身份人的表示之间可能出现的关系,为了能利用这层关系,作者引用函数来聚合表示向量 ui:
其中包含了所有通过特征提取出来的向量。通过使用 Transformer 对向量公式进行了进一步改进:
其中 A 是一个包含任意两对输入表示向量之间相似性的亲和矩阵Zi,Zj。s(·)是将亲和转化为权值的 softmax 函数,φv(·)是线性投影函数。那么亲和矩阵 A,则有
在所有输入图像的训练和测试中,鼓励每个身份的低表示变量是至关重要的。
如图所示,在 Transformer 之后,以表示向量z∈RN×d为输入,通过三个独立的线性投影φq(·)、φk(·)、φv(·)得到查询矩阵、键值矩阵q、k、v∈RN×d。在输入 z 中随机采样 l 个样本得到 zl ,然后生成 kl 和 ql ,这样特征就从 N × d 降为 l × d 。将原始的 q 和 k 通过与 kl 和 ql 分别相乘,得到;最后,将大的亲和映射A ∈ R N × N 的计算分解为两个低秩矩阵的乘法,得到:
在得到亲和力矩阵 之后,可以将式(2) 改写为两部分的和,,ρ 作为区别权重大小的一个小的阈值,前半部分表示的是注意权重小的元素和,后半部分表示的权重大的和。
虽然表示的权重比较小,但是随着样本 N 的增大,总和也会增大。因此,不相关样本的存在会对 ui 的最终计算产生负面影响。如图 (a) 所示。
为了解决计算成本大的问题和大量不相关样本的影响,文章建议使用 RNS 来对等邻居掩码强制稀疏到少数相关注意权重。
这里的意思就是 A 矩阵中每行 attention weights 前 k 个最大的置为1,其余的置为 0,然后使用下面计算生成一个 mask M:
通过将这个掩码 M 添加到常规的softmax函数中,实现了只发生在邻居的稀疏注意力,这增加了对更多相关图像的关注。RNS公式如下:
如图 (b)所示,由于大多数注意值都被设置为0,因此关系被限制到相关的邻居,使得式 (2) 中的聚合更加集中和健壮。此外,由于我们不需要对权重为零的元素进行加法运算,特征聚合的时间复杂度从O(N 2d) 显著降低到 O(N kd),降低了计算。
本文提出的用于人员再识别的 NFormer 网络,它在输入图像之间相互作用,以产生更多的鲁棒性特征和判别表示。与大多数现有的专注于单个图像或训练批中的少数图像的方法相比,作者提出的方法对所有输入图像之间的关系进行建模,包括跨相机和不同背景等信息。首先,提出了 LAA 组件,旨在允许更有效地建模大量输入之间的关系,以及一个 RNS 组件,以实现对邻居的稀疏关注。因此,NFormer 在大量输入的情况下伸缩性很好,并且对异常值具有鲁棒性。在广泛的消融研究中,表明 NFormer 学习了鲁棒的判别表示,可尝试与第三种方法结合使用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。