赞
踩
论文地址:https://arxiv.org/pdf/2307.12698.pdf
众所周知,Lecun最近在A Path Towards Autonomous Machine Intelligence Version文章中指明了下一个十年的人工智能发展方向,并点明了世界模型的重要性,并提出了Jepa架构。本文则是Lecun对于世界模型与自监督学习的全新探索,并提出了MC-Jepa。视觉表征的自我监督学习一直侧重于学习内容特征,而内容特征并不捕捉物体的运动或位置,重点在于识别和区分图像和视频中的物体。另一方面,光流估计是一项不涉及理解图像内容的任务。作者将这两种方法统一起来,并引入 MC-JEPA(一种联合嵌入式预测架构和自监督学习方法),在共享编码器中联合学习光流和内容特征,证明了两个相关目标(光流估计目标和自监督学习目标)相互受益,从而学习到包含运动信息的内容特征。该方法的性能与现有的无监督光流基准相当,在下游任务(如图像和视频的语义分割)上也与常见的自监督学习方法相当。
最近,在视觉中的自我监督学习领域,学习内容特征的方法占据了主导地位。即学习包含能够识别和区分图像中对象的信息的特征,或者学习视频中的内容特征。大多数方法专注于学习在任务如对象分类或视频动作识别中表现出色的全局特征。近期的一个趋势是学习局部特征,在检测和分割等局部任务中表现良好。然而,这些方法专注于理解图像和视频的内容,无法学习像素级别的信息,如视频中的运动或纹理细节。在本文中,作者通过使用自我监督光流估计作为预训练任务,以及一般的自我监督学习,专注于联合学习运动特征。
光流是捕捉两个图像之间的运动或像素对应关系的技术,例如视频中的连续帧或立体成像中的图像。光流估计是计算机视觉中的一个基本问题,其解决方案对于视觉里程计、深度估计或对象跟踪等任务至关重要。经典方法将光流估计视为一个优化问题,其目标是在平滑性约束下匹配像素。基于神经网络和监督学习的方法,由于真实世界数据的标注困难,与使用合成数据相比受到限制。自我监督方法允许从大量真实世界的视频数据中进行学习,并提供了与监督方法相竞争的替代方案。然而,大多数当前方法仅关注运动,而不依赖于视频的(语义)内容,作者通过采用多任务方法同时学习图像中的运动和内容特征来解决这个问题。
最近的技术学习视频帧之间的空间对应关系。其目标是跟踪物体的位置,从而捕捉光流估计所无法提供的内容信息。这些方法可以看作是物体级别的运动估计。它们学习的特征对跟踪任务非常具体化,对其他视觉下游任务的泛化能力非常差。通常情况下,它们在小规模的视频数据集上进行训练,这些数据集的多样性不及像ImageNet这样的大型图像数据集,这加剧了所学习的视觉特征的质量不佳。构建可靠的视觉表示的一种更可靠的方法是同时学习多个任务。因此,作者提出了MC- Jepa(Motion-Content Joint-Embedding Predictive Architecture),这是一种通过共享编码器进行多任务设置的方法,以联合嵌入预测架构学习光流估计和内容特征。作者的贡献可以总结如下:
作者提出了一种基于合成和真实视频数据的自我监督光流学习方法,基于PWC-Net,并通过添加多个组件(如反向一致性损失和方差协方差正则化项)对其进行改进。作者将这个方法称为M-JEPA。
作者将M-JEPA与VICReg相结合,VICReg是一种在ImageNet上进行训练的自我监督学习方法,以改进作者的光流估计,并生成在许多下游任务上具有良好迁移性的内容特征。作者最终的方法称为MC-Jepa。
作者在一系列光流基准数据集(如KITTI 和Sintel),以及Cityscapes或DAVIS上的图像和视频分割任务上进行评估,并展示了在所有这些任务上单个编码器的强大性能。
作者希望MC-Jepa将成为基于多任务学习和联合嵌入架构的自我监督学习方法的第一步,可以在任何图像或视频数据上进行训练,并在各种任务(从运动预测任务到内容理解任务)上具有良好的泛化能力。
本节中,作者将描述作者的架构和改进,用于采用分层粗到细的方法进行自我监督光流估计,作者方法的损失函数,自我监督的一般目标和多任务设置,数据采样策略以及一系列用于稳定训练的技巧。optical_flow节介绍了作者的光流估计方法M-JEPA,multi_task节介绍了作者如何将M-JEPA与多任务学习结合到作者的最终方法MC-Jepa中。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。