赞
踩
OSTrack是一种end-to-end的tracking方法,在vot榜单上排名前三。
主要贡献点:
1.将feature extraction和relation modeling用transformer统一,模型框架更简单直接。
2.在transformer中的多头注意力机制后额外增加了筛选机制,称为early candidate elimination module,通过在早期过滤部分得分较低的无obj区域,来提升模型的推理速度(灵感来源于dynamicViT和EViT)。
论文链接
代码链接
总体框架非常简单,可以概括为transformer+head的组合,可以看到这应该是最近的tracking任务的主流方向,相似的模型架构还有MixFormer和SBT两篇文章。
MOT可以在特定类别的ReID网络上预训练并且同时追踪多个相似的目标,SOT不可以。因此SOT会因为在track obj被遮挡时错误地track到相似的obj上。因此这篇文章提出了一种通过添加近邻轨迹的后处理方式来提升精度。
论文链接
代码链接
SOT网络通过之前对obj的追踪可以生成一系列的预测框
B
~
t
=
{
b
~
1
t
,
⋯
,
b
~
n
t
t
}
\widetilde B^t=\{\widetilde b^t_1, \cdots,\widetilde b^t_{nt}\}
B
t={b
1t,⋯,b
ntt}和对应的分数
S
~
t
=
{
s
~
1
t
,
⋯
,
s
~
n
t
t
}
\widetilde S^t=\{\widetilde s^t_1, \cdots,\widetilde s^t_{nt}\}
S
t={s
1t,⋯,s
ntt},然后通过预定义的超参数
α
\alpha
α来过滤分数低的一部分候选框,最后通过SoftNMS得到一个预测值。
(
B
t
,
S
t
)
=
S
o
f
t
N
M
S
(
{
(
b
~
i
t
,
s
~
i
t
)
∣
b
~
i
t
⊆
B
~
t
a
n
d
s
~
i
t
>
α
s
~
i
m
a
x
t
}
)
(B^t,S^t)=SoftNMS(\{(\widetilde b^t_i,\widetilde s^t_i)|\widetilde b^t_i\subseteq\widetilde B^t \ and\ \widetilde s^t_i>\alpha\widetilde s^t_{i_{max}}\})
(Bt,St)=SoftNMS({(b
it,s
it)∣b
it⊆B
t and s
it>αs
imaxt})
当SOT网络检测到多个obj时,维护两个队列 候选轨迹池
P
c
P^c
Pc(可能是真实obj的轨迹集合) 和小的近邻轨迹池
P
n
P^n
Pn(某一个和真实track obj相似的近邻obj),每次更新都只在
P
n
P^n
Pn中保留上一帧的轨迹
现有成功检测的轨迹
η
\eta
η,两个池
P
c
,
P
n
P^c,P^n
Pc,Pn。取
S
c
=
P
c
,
S
n
=
P
n
∪
η
S^c=P^c,S^n=P^n\cup\eta
Sc=Pc,Sn=Pn∪η。则所有
S
c
,
S
n
S^c,S^n
Sc,Sn都被认为是可计算的点。对
ξ
i
t
∈
S
c
\xi^t_i\in S^c
ξit∈Sc和
ζ
i
t
∈
S
n
\zeta^t_i\in S^n
ζit∈Sn之间的边计算IoU,得分最高的即为最终的obj
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。