赞
踩
Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking
这篇文章重点是引入Transformer作为特征提取增强模块。 既是用自注意力对backbone提取的特征进行增强,利用交叉注意力机制使得Template的特征和Search Region的特征交叉增强,有助于后面目标定位。
几个注意点:
如图所示,Template Features 【这里的Template实际上有20个,这个参数是在消融实验中验证能达到最高的精度。】 和 Search Features是初步经过Backbone(ResNet50)生成的特征,经过Encoder会生成Encoded Features和目标相关的Masks,再将其作为Decoder的输入,在Search Feature上面利用交叉注意力机制,输出Decoded Feature。
其中,Encoded Features包含了多个Template自注意力的特征增强结果,不同Template的特征也有交叉增强。
Masks是在Template Features上以目标GroundTruth为中心的高斯型mask,为了增强目标的特征,而抑制目标周围相似物体的干扰。
Decoded Feature 是将Template Features、Mask与Search Features进行交叉注意力操作,即使用Template Features、Masks对Search Features进行增强,对Search Features中与目标有关的特征进一步突出。
如下图:
上面的网络结构只包含了特征增强的部分,具体实现中与现有SiamFC【孪生网络框架】、DiMP【相关滤波框架】集成。
要QQ每天都开开心心~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。