当前位置:   article > 正文

<Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking>

transformer meets tracker: exploiting temporal context for robust visual tra

摘要

模板集在视频对象跟踪中,连续帧之间存在丰富的时间上下文,而在现有的跟踪器中却被很大程度上忽略了。 在这项工作中,我们桥接单个视频帧,并通过一个用于稳固目标跟踪的Transformer架构探索跨上下文。 与在自然语言处理任务中使用Transformer的经典用法不同,我们将其编码器和解码器分为两个并行分支,并在类似于Siamese的跟踪pipeline中精心设计它们。 Transformer编码器通过基于注意力的特征增强来促进目标模板,这有利于高质量跟踪模型的生成。 Transformer解码器将跟踪提示从先前的模板传播到当前帧,从而简化了目标搜索过程。
我们的Transformer辅助跟踪框架整洁并以端到端的方式进行了train。 使用建议的transformer,一种简单的连体匹配方法就可以胜过当前表现最佳的跟踪器。 通过将我们的Transformer与最新的判别式跟踪pipeline相结合,我们的方法在流行的跟踪基准上创下了一些新的最新记录。在这里插入图片描述

1. Introduction

视觉目标跟踪是计算机视觉中的基本任务。
尽管有最新进展,但由于诸如咬合,变形和外观变化等因素,它仍然是一项具有挑战性的任务。 随着时间误差的累积,这些挑战在在线过程中被进一步放大。
众所周知,视频流中的丰富时间信息对于视觉跟踪至关重要。 但是,大多数跟踪范式[29、28、49]通过每帧对象检测来处理此任务,其中连续帧之间的时间关系在很大程度上被忽略了。 以流行的siam跟踪器为例,模板匹配只考虑初始目标[1、45、19、29]。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/1010460
推荐阅读
相关标签
  

闽ICP备14008679号