当前位置:   article > 正文

ICML'24开源 | 220FPS精度还最高?AVTrack:最强实时无人机跟踪算法!

aba-vitrack

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

ebf3806b3d83d8c7535b6995c654a17e.jpeg

0. 这篇文章干了啥?

随着无人机(UAV)在应用领域不断发展和多样化,无人机跟踪领域变得愈发关键。无人机跟踪涉及在连续空中图像中评估和预测任意目标的位置,并面临独特挑战,包括处理极端视角、减轻运动模糊以及克服严重遮挡。此外,鉴于无人机固有的有限电池容量和计算资源,无人机跟踪的效率至关重要。研究人员和从业者正积极探索创新方法,以完善跟踪算法、提高精度和效率,从而满足无人机应用的独特需求。

尽管基于判别相关滤波器(DCF)的跟踪器因其高效率在无人机跟踪领域占据主导地位,但在跟踪精度上却难以与基于深度学习(DL)的方法相媲美。特别值得注意的是,基于DL的方法越来越倾向于采用单流架构,通过预训练的视觉变换器(Vision Transformer,ViT)骨干网络无缝集成特征提取和融合。如OSTRack、Sim-Track、Mixformer和DropMAE等最新方法的成功,证明了这一范式转变的有效性。受此启发,Aba-VTrack基于这一框架提出了一种轻量级的DL跟踪器,采用自适应且背景感知的令牌计算方法以减少推理时间,并在实时无人机跟踪中表现出色的精度和速度。然而,该方法中令牌数量的可变使用导致了显著的时间成本,这主要源于非结构化访问操作。

在本研究中,我们还采用了一种由预训练Transformer骨干网络驱动的单流架构。然而,我们的重点在于通过更结构化的方法来提高ViT(Vision Transformer)的效率。为此,我们在每个Transformer块中引入了一个激活模块。该模块的输出是一个激活概率,该概率决定了对于给定的某个输入,是否应该激活Transformer块。由于ViT是按块自适应修剪的,因此我们的方法避免了耗时的非结构化访问操作。这一方法的合理性在于认识到,在不同抽象层级上,语义特征或关系对跟踪任务的影响并不均匀。相反,这种影响会根据目标和其所处场景的特性而有所不同。例如,当目标在单色背景下移动时,由于场景的简单性,可以基于目标与背景之间的颜色对比度实现有效跟踪。在这种情况下,这种直观的特征通常就足够了。然而,当目标在杂乱的环境中移动时,跟踪任务变得更加复杂。在杂乱场景中,捕获和分析足够的语义特征和关系对于实现有效跟踪至关重要。这凸显了跟踪需求的动态性,它与场景和被跟踪目标的特定特性紧密相关。在我们的实现中,激活模块是一个线性层,后面跟着一个非线性激活函数,考虑到效率问题,它仅将所有令牌(代表目标模板和搜索图像)的一部分作为输入。通过根据跟踪任务的具体需求定制ViT的架构,我们的方法有可能加速视觉跟踪的推理过程。

此外,为了提高ViT(Vision Transformer)在无人机跟踪中的有效性,我们引入了一种新颖的方法来学习视角不变的特征表示。这是通过最大化从目标两个不同视角中提取的骨干特征之间的互信息来实现的。值得注意的是,据我们所知,在无人机跟踪的背景下,这种特征学习的视角尚未得到广泛研究。互信息是一种量化两个变量之间依赖性或关系的度量。互信息最大化是指增强系统内部不同组件或变量之间互信息的过程,该过程已广泛应用于各种计算机视觉任务中。通过最大化目标两个不同视角之间的互信息,我们旨在确保学习的表示能够保留关于目标的基本信息,而不受视角变化的影响。我们将这样获得的表示称为视角不变表示。我们认为,使用视角不变表示训练的模型在不同视角条件下往往具有更好的泛化能力,从而在视角变化常见的现实场景中表现出更强的鲁棒性。在无人机跟踪的背景下,这种视角不变表示的优势尤为明显,因为其中普遍存在视角急剧变化的挑战。此外,由于模板图像和搜索图像中的目标补丁代表同一目标的两个不同视角,我们的方法可以无缝集成到现有的跟踪框架中,只需添加一个额外的损失即可。我们将这种提出的自适应计算框架称为AVTrack。大量实验充分证明了我们方法的有效性、高效性和通用性,并表明我们的AVTrack达到了最先进的实时性能。我们的方法在VisDrone2018数据集上以0.860的精度创下了新纪录,并且能以大约每秒220帧(FPS)的速度高效运行。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Learning Adaptive and View-Invariant Vision Transformer for Real-Time UAV Tracking

作者:Yongxin Li, Mengyuan Liu, You Wu, Xucheng Wang, Xiangyang Yang, Shuiwang Li

机构:桂林理工大学

原文链接:https://proceedings.mlr.press/v235/li24ax.html

代码链接:https://github.com/wuyou3474/AVTrack

2. 摘要

利用基于Transformer的模型,视觉跟踪技术取得了显著的进步。然而,当前跟踪器的迟缓性能限制了它们在计算能力受限设备上的实用性,特别是对于实时无人机(UAV)跟踪。针对这一挑战,我们引入了AVTrack,一个自适应计算框架,该框架旨在有选择地激活Transformer块,以实现本工作中的实时无人机跟踪。我们提出的新型激活模块(AM)能够动态优化ViT架构,有选择地激活相关组件,提高推理效率,同时不会过多地牺牲跟踪性能。此外,我们还通过学习视图不变表示(通过最大化互信息)来增强ViT的有效性,特别是解决在无人机跟踪中常见的极端视角变化带来的挑战。在五个跟踪基准测试上进行的广泛实验验证了我们的方法的有效性和通用性,使其成为视觉跟踪领域的最先进解决方案。代码发布在:https://github.com/wuyou3474/AVTrack。

3. 效果展示

92ccb14398fd17ae567c4dba00eb49ff.png

4. 主要贡献

我们的主要贡献可以总结如下:

• 鉴于如果跟踪过程作为动态且上下文敏感的机制运行会更加高效,我们提出了激活模块(Activation Module),该模块能够基于ViT(Vision Transformer)自适应地激活Transformer块,以实现实时无人机跟踪。

• 我们提出了通过学习视图不变特征表示来提高跟踪性能的方法,通过最大化目标两个不同视图的主干特征之间的互信息来实现。这种方法产生了更有效、信息更丰富的特征表示,特别是解决了由视角变化引起的挑战。

• 我们引入了AVTrack,这是一个基于上述组件的高效跟踪器系列,它能够与其他基于ViT的跟踪器无缝集成。AVTrack在保持极快跟踪速度的同时,展现出了令人瞩目的性能。实验评估表明,AVTrack达到了最先进的实时性能。

5. 基本原理是啥?

我们首先对名为AVTrack的端到端跟踪框架进行简要概述,如图2所示。然后,我们介绍了激活模块(AM),该模块可根据输入动态激活Transformer块,以及通过互信息最大化来学习视角不变表示(VIR)的方法。最后,我们详细介绍了预测头和训练损失。

ca3fb1e1c380e5e6b52f9ad24613a9dc.png

6. 实验结果

表1展示了我们的跟踪器与竞争对手轻量级跟踪器的评估结果。可以看出,我们的AVTrack在平均(Avg.)精度(Prec.)、成功率(Succ.)和速度方面均表现出优于所有其他跟踪器的性能。在基于DCF的跟踪器中,RACF的平均精度(74.6%)和成功率(51.2%)最高;在基于CNN的跟踪器中,DRCI的平均精度最高,达到79.8%,而UDAT的成功率最高,为60.1%。然而,所有基于ViT的跟踪器的平均精度和成功率分别超过81.0%和62.0%,明显优于基于DCF和CNN的方法。

在GPU速度方面,AVTrack-EVA以283.7 FPS的最高速度脱颖而出。紧随其后的是DRCI和AVTrack-DeiT,分别以281.3 FPS和256.8 FPS的速度位列第二和第三。然而,尽管DRCI的GPU速度与AVTrack-DeiT相当,但其平均精度和成功率却显著低于AVTrack-DeiT。在CPU速度方面,我们的所有跟踪器在单个CPU1上均表现出实时性能,甚至快于一些基于DCF的跟踪器,如AutoTrack和RACF。

尽管Aba-ViTrack以85.3%的平均精度和64.7%的平均成功率位居榜首,但AVTrack-DeiT仅以1.2%和0.4%的微小差距位列第二。值得注意的是,在VisDrone2018数据集上,AVTrack-ViT在精度和成功率方面均优于Aba-ViTrack;而在UAV123数据集上,AVTrack-DeiT在成功率方面超越了Aba-ViTrack。此外,我们的所有跟踪器在速度方面均优于Aba-ViTrack。特别是,AVTrack-DeiT的GPU速度是Aba-ViTrack的1.4倍以上,CPU速度是Aba-ViTrack的1.2倍以上,这充分展示了其在跟踪精度和效率之间的卓越平衡,凸显了我们方法的优势,并证实了其在无人机跟踪领域的SOTA性能。

d248c3b75f440b90236f568c8ab99efa.png

将提出的AVTrack-DeiT与14种深度跟踪器进行了比较,如表2所示。该表列出了在VisDrone2018上竞争跟踪器的精确率(Prec.)、成功率(Succ.)和GPU速度。值得注意的是,我们的AVTrack-DeiT在精确率上排名第二,在成功率上排名第三,并且GPU速度最快,这充分展示了其在准确性和速度方面的竞争力。此外,还应注意到,我们的方法在精确率和成功率上与第一名的差距很小,分别仅为0.3%和1.4%。虽然包括ROMTrack、SLT-TransT和TansT在内的几种深度跟踪器在精度上与AVTrack-DeiT相当,但它们的GPU速度明显较慢。例如,我们的方法分别比ROMTrack、SLT-TransT和TansT快3倍、6倍和3倍。

577996950605af5551b04205fd89040c.png

7. 总结 & 未来工作

在本文中,我们重点关注使用高效视觉Transformer(Vision Transformers,ViTs)的统一框架进行实时无人机跟踪的有效性。为此,我们通过实现一种自适应计算范式来精简框架,该范式选择性地激活Transformer块。此外,为了应对无人机跟踪中常见的视角变化带来的挑战,我们利用互信息最大化来学习视角不变的表示。由于我们的方法简单性,它可以无缝集成或适应到其他基于ViT的跟踪器中。在五个无人机跟踪基准上的详尽实验验证了我们的方法的有效性,并表明我们的AVTrack-DeiT在无人机跟踪中达到了最先进的性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

d823d04921909e550731e5b62c9c3476.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

4bceb6dbbba390be1cb196eeb1d1d6f3.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

2d1f03f6a6c779a15e6bfeabed7cb1e3.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉模组选型:www.3dcver.com

065ca1dbea06af7ee3e2765eaedc661b.png


—  —

点这里

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/1010428
推荐阅读
相关标签