赞
踩
模板集在视频对象跟踪中,连续帧之间存在丰富的时间上下文,而在现有的跟踪器中却被很大程度上忽略了。 在这项工作中,我们桥接单个视频帧,并通过一个用于稳固目标跟踪的Transformer架构探索跨上下文。 与在自然语言处理任务中使用Transformer的经典用法不同,我们将其编码器和解码器分为两个并行分支,并在类似于Siamese的跟踪pipeline中精心设计它们。 Transformer编码器通过基于注意力的特征增强来促进目标模板,这有利于高质量跟踪模型的生成。 Transformer解码器将跟踪提示从先前的模板传播到当前帧,从而简化了目标搜索过程。
我们的Transformer辅助跟踪框架整洁并以端到端的方式进行了train。 使用建议的transformer,一种简单的连体匹配方法就可以胜过当前表现最佳的跟踪器。 通过将我们的Transformer与最新的判别式跟踪pipeline相结合,我们的方法在流行的跟踪基准上创下了一些新的最新记录。
视觉目标跟踪是计算机视觉中的基本任务。
尽管有最新进展,但由于诸如咬合,变形和外观变化等因素,它仍然是一项具有挑战性的任务。 随着时间误差的累积,这些挑战在在线过程中被进一步放大。
众所周知,视频流中的丰富时间信息对于视觉跟踪至关重要。 但是,大多数跟踪范式[29、28、49]通过每帧对象检测来处理此任务,其中连续帧之间的时间关系在很大程度上被忽略了。 以流行的siam跟踪器为例,模板匹配只考虑初始目标[1、45、19、29]。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。