赞
踩
Correlation 是一种简单的衡量模板和搜索区域相似性的方式,但是它是一个local linear matching process局部线性匹配过程,导致丢失语义信息,容易陷入局部最优,这可能是设计高精度跟踪算法的瓶颈。
(经过Correlation得到的不是严格意义上的特征图,更贴切的说是一个相似性响应图,因此会丢失语义信息,不利于预测)
提出更好的feature fusion method特征融合方法,仅使用注意力来有效地组合模板和搜索区域特征。该方法包括基于self-attention的自我上下文增强模块和基于cross-attention的跨特征增强模块。
Correlation plays a critical role in integrating the template or target information into the regions of interest (ROI).
which limits the tracker to capture the complicated non-linear interaction between the template and ROIs.
主要贡献:
1、新的Transformer跟踪框架,由特征提取,类似于Transformer的融合和头部预测模块。
2、基于self-attention的自我上下文增强模块和基于cross-attention的跨特征增强模块。我们基于注意力的方法自适应地关注有用信息(例如边缘和相似目标),并在远距特征之间建立关联,以使跟踪器获得更好的分类和回归结果。
3、LaSOT,TrackingNet,GOT-10k实验,50FPS
同一个模型,后处理只使用了余弦窗,用的是默认的一套参数测试的。
Strong Baseline, Clean work!
Multi-head Self-Attention.
位置编码用的是sine function
X
E
C
=
X
+
M
u
l
t
i
H
e
a
d
(
X
+
P
x
,
X
+
P
x
,
X
)
X_{EC} = X+MultiHead(X+P_x, X+P_x, X)
XEC=X+MultiHead(X+Px,X+Px,X)
Multi-head Cross-Attention.
X
C
F
=
X
~
C
F
+
F
F
N
(
X
~
C
F
)
X_{CF} = \widetilde{X}_{CF}+FFN(\widetilde{X}_{CF})
XCF=X
CF+FFN(X
CF)
X
~
C
F
=
X
q
+
M
u
l
t
i
H
e
a
d
(
X
q
+
P
q
,
X
k
v
+
P
k
v
,
X
k
v
)
\widetilde{X}_{CF} = X_q+MultiHead(X_q+P_q, X_{kv}+P_{kv}, X_{kv})
X
CF=Xq+MultiHead(Xq+Pq,Xkv+Pkv,Xkv)
我们的方法中的交叉注意力操作比DETR中的交叉注意力操作起着更重要的作用,因为跟踪任务的重点是融合模板和搜索区域特征。
Distractor:遮挡和外观变化同时出现,而且这个时候有干扰物存在的话就比较容易误判,没有极端情况的话还是能判别大部分干扰物的。
Out of the Search Region:4倍搜索区域有时候覆盖不到,对vot里一些序列,然后搜索区域扩大的话有可能会加剧干扰物的影响。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。