当前位置:   article > 正文

ICCV2023 Tracking paper汇总(二)(多目标跟随、单目标跟随等)_24年 多目标跟踪

24年 多目标跟踪

十六、Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Xu_Integrating_Boxes_and_Masks_A_Multi-Object_Framework_for_Unified_Visual_ICCV_2023_paper.pdf
github: https://github.com/yoxu515/MITS

1、摘要

在视觉目标跟踪(VOT)和视频目标分割(VOT,VOS)的共同目的。一些研究已经尝试过联合跟踪和分割,但在初始化和预测中往往缺乏box和mask的完全兼容性,主要集中在单对象场景上。为了解决这些限制问题,本文提出了一种用于统一跟踪和分割的多对象mask和box集成框架,称为MITS。首先,提出了统一的识别模块来支持初始化的box引用和mask参考,其中详细的对象信息从box中推断或直接从mask中保留。此外,还提出了一种新的精确框预测器,用于精确的多目标框预测,促进了面向目标的表示学习。所有目标对象从编码到传播和解码同时处理,作为VOT和VOS的统一管道。实验结果表明,MITS在VOT和VOS基准测试上都取得了最先进的性能。
在这里插入图片描述

2、方法在这里插入图片描述

MITS中针对VOT和VOS任务的统一encoding-propagation-decoding pipeline。
首先box和mask参考都可以通过统一的ID模块进行编码(包括图像特征),得到历史帧统一ID embedding(用一个下采样16倍的tensor块表示)。
在这里插入图片描述
第二步,ID embedding和编码后的图像特征被送入传播模块中,在传播模块中,历史信息的ID embedding被设置为key,图像特征被设置为query,进行attention计算。
第三步,融合当前帧和过去帧历史信息的propagate embedding用于预测当前帧的mask 和box。
1)框预测如下图,先通过Transformer网络定位4个精确点,然后投影到四个边的概率映射中,将概率图水平和垂直聚合,提取每边的精确点坐标(作者文中提到这种做法是为了和mask更匹配)。
2)mask预测为一个常规的instance mask问题。
在这里插入图片描述



十七、3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Ding_3DMOTFormer_Graph_Transformer_for_Online_3D_Multi-Object_Tracking_ICCV_2023_paper.pdf
github: https://github.com/dsx0511/3DMOTFormer

1、摘要

准确、一致地跟踪三维物体对自动驾驶车辆至关重要,从而能够实现更可靠的下游任务,如轨迹预测和运动规划。基于近年来目标检测的实质性进展,检测跟踪范式因其简单和高效而成为一种流行的选择。最先进的3D多目标跟踪(MOT)方法通常依赖于非学习的基于模型的算法,如卡尔曼滤波器,但需要许多手动调整的参数。另一方面,基于学习的方法面临着适应在线设置的问题,导致训练与推理之间的分布不匹配以及次优表现。在这项工作中,我们提出了3DMOTFrorer,一个基于几何的Transformer 3D MOT框架架构。我们利用边缘增广图变换对跟踪检测二部图逐帧进行推理,并通过边缘分类进行数据关联。为了减少训练和推理之间的分布不匹配,我们提出了一种新的在线训练策略,具有自回归和递归前向传递以及顺序批量优化。
在这里插入图片描述
看着类似MOTR v2的输入和输出,但是做法有一定差异。

2、方法

在这里插入图片描述
模型处理由轨迹和检测组成的图结构数据。
文中使用一个带有图自注意的编码器来编码现有的轨迹,以及一个同时带有图自注意和边缘增强图交叉注意的解码器来处理检测和边缘特征。与常规的self-attention网络不同,graph self-attention会将归一化的范围限制在graph设置的目标之间,避免目标数过多稀释了归一化数值。
解码器输出用于估计亲和度和速度(FFN),并进一步用于更新轨迹。
网络在训练过程中自动回归运行,我们使用所有帧的损失来优化网络(和MOTR的思路相同)。



十八、Object-Centric Multiple Object Tracking

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Zhao_Object-Centric_Multiple_Object_Tracking_ICCV_2023_paper.pdf
github: https://github.com/amazon-science/object-centric-multiple-object-tracking

1、摘要

无监督的以对象为中心的学习方法,允许在没有额外的定位信息的情况下将场景划分为实体,并且减少多目标跟踪(MOT)方法的标注负担。不幸的是,它们缺少两个关键属性:对象通常被分成几部分,并且不会随着时间的推移被一致地跟踪。事实上,最先进的模型通过依赖于监督对象检测和额外的ID标签,实现了像素级的准确性和时间一致性。本文提出了一种以视频对象为中心的MOT模型。它包括一个将以对象为中心的插槽调整为检测输出的索引合并模块和一个对象内存模块,该模块构建完整的对象原型来处理遮挡。受益于以对象为中心的学习,我们只需要稀疏检测标签(0%-6.25%)来进行对象定位和特征绑定。依赖于我们的自我监督的期望-最大化启发的对象关联损失,我们的方法不需要ID标签。我们的实验显著地缩小了现有的以对象为中心的模型和完全有监督的最先进状态之间的差距,并优于几个无监督的跟踪器。

2、方法

在这里插入图片描述
i) 一个索引合并模块,通过两个步骤将以对象为中心的插槽St调整为检测结果Mt。首先,通过一个可学习的索引矩阵将每个槽索引到内存缓冲区中,它指示所有的槽-存储分配。其次,通过重新计算被它向后掩盖的注意权重来合并分配给相同缓冲区的插槽。(简单来说就是在track query对应的位置学习或分配一个当前帧的detection/track结果)。
ii)一个对象内存模块,通过滚动对象关联的历史状态转发来提高时间一致性。对于MOT评估,我们通过以对象为中心的分组模块中的decoder将Mt解码为box或者mask。
不需要ID的原因是相同物体的相似性更高,可以通过卡阈值来获得匹配结果。



十九、TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory Hypotheses

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_TrajectoryFormer_3D_Object_Tracking_Transformer_with_Predictive_Trajectory_Hypotheses_ICCV_2023_paper.pdf
github: https://github.com/poodarchu/EFG

1、摘要

3D多目标跟踪(MOT)对自动驾驶汽车和服务机器人等许多应用都至关重要。近年来,随着常用的检测跟踪模式,3D MOT取得了重要进展。然而,这些方法只使用当前帧的检测框来获得轨迹-框关联结果,这使得跟踪器不可能恢复被检测器遗漏的对象。在本文中,我们提出了一种新的基于点云的三维MOT框架。为了通过检测器恢复丢失的对象,我们使用混合候选框生成多个轨迹假设,包括时间预测框和当前帧检测框,用于轨迹-框关联。预测框可以将对象的历史轨迹信息传播到当前帧,因此网络可以容忍被跟踪对象的短期误检测。我们将长期物体运动特征和短期物体外观特征相结合,创建了每个假设的特征嵌入,从而减少了时空编码的计算开销。此外,我们引入了一个全局-局部交互模块来进行所有假设之间的信息交互,并建立它们的空间关系模型,从而得到对假设的准确估计。

2、方法

在这里插入图片描述
给定N个历史轨迹和输入点云,我们首先通过合并检测框W和时间预测框Tf,为每个历史轨迹生成多个轨迹假设。然后利用长-短假设特征编码模块对每个假设的外观和运动特征进行编码。
这些假设特征通过全局-局部假设交互模块进行进一步编码,从而在这些假设之间传播信息。最后,利用这些特征来预测每个假设的置信度,以选择最佳轨迹假设。



二十、MBPTrack: Improving 3D Point Cloud Tracking with Memory Networks and Box Priors

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Xu_MBPTrack_Improving_3D_Point_Cloud_Tracking_with_Memory_Networks_and_ICCV_2023_paper.pdf

1、摘要

几十年来,三维单目标跟踪一直是一个关键问题,如自动驾驶。尽管它的广泛使用,但由于跟踪目标之间的遮挡和大小差异造成了显著的外观差异,这项任务仍然具有挑战性。为了解决这些问题,我们提出了MBPTrack,它采用内存机制利用过去的信息,并利用第一帧给出的框先验以从粗到细的方案进行定位。具体来说,具有目标掩码的过去帧作为外部内存,并且基于转换器的模块将被跟踪的目标线索从内存传播到当前帧。为了精确定位各种大小的对象,MBPTrack首先通过霍夫投票预测目标中心。通过利用第一帧中给出的框先验,我们自适应地采样目标中心周围的参考点,它大致覆盖了不同大小的目标。然后,我们通过将点特征聚合到参考点中,得到密集的特征图,从而更有效地进行定位。
在这里插入图片描述

2、方法

在这里插入图片描述
1、使用一个主干来提取几何特征。
2、过去的帧及其目标掩码作为外部内存,解耦特征传播模块(transformer模块)用于从历史帧中传播丰富的目标线索。
3、框先验定位网络:利用框先验来采样参考点,自适应地覆盖不同大小的目标,以进行精确定位。



二十一、Tracking Everything Everywhere All at Once

paper: https://openaccess.thecvf.com/content/ICCV2023/papers/Wang_Tracking_Everything_Everywhere_All_at_Once_ICCV_2023_paper.pdf
github: omnimotion.github.io

1、摘要

我们提出了一种新的测试时间优化方法来估计密集和远程运动的视频序列。先前的光流或粒子视频跟踪算法通常在有限的时间窗口内运行,努力通过遮挡进行跟踪,并保持估计的运动轨迹的全局一致性。我们提出了一个完整的和全局一致的运动表示,称为全动运动,它允许在一个视频中的每个像素的准确的,全长的运动估计。OmniMotion表示一个使用准三维规范卷的视频,并通过局部空间和规范空间之间的双射进行像素级跟踪。这种表示允许我们确保全局一致性,跟踪遮挡,并对相机和物体运动的任何组合进行建模。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/1010429
推荐阅读
相关标签