当前位置:   article > 正文

ICLR 2023 | 2D视觉或语言Foundation Model可以帮助3D表征学习吗?

视觉foundation models

cce475e1a3aff4cdb10a1db0aef73901.gif

35c0255a8d877ae836e5e5c3dcac9084.png

论文标题:

Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?

论文链接:

https://arxiv.org/abs/2212.08320

代码链接:

https://github.com/RunpeiDong/ACT

7ad78a38b18288b34583d1371e2bed33.png

引言

在过去的几年里,随着 Transformer 的普遍应用,NLP、2D vision 和图文多模态在表征学习和预训练领域经历了井喷式的发展,大量的 foundational models [1] 被提出,如 BERT [2]、MAE [3] 和 CLIP [4] 等等。但在 3D 表征学习中,该领域还相对落后,这让我们思考:

What makes 3D representation learning more challenging than 2D vision or NLP?

我们认为是以下三点导致的:

Architecture Disunity:像 PointNet 这样的开创性架构只能对 3D 坐标进行编码,而不适用于 NLP 和 2D 视觉中常用的掩蔽去噪自动编码(DAE)。Transformers 现在已经缩小了这一体系结构差距,这使得能够跨所有模态格式进行统一表示,并为扩展 DAE 以实现 3D 带来了巨大潜力 [5,6]。

Data Desert:与图像和自由形式的语言相比,收集和标注 3D 数据更加困难,3D 领域存在着严重的数据荒漠问题。这激发了跨模态 Knowledge Transfer 的使用。最近的一些工作通过与其他模态进行联合训练以获得更有效的对比 [7],或直接图像数据上预训练的 2D Transformers 进行微调 [8]。

Pattern Difference

fcd848c4f878456c0d49d45523aa5ddc.png

上表显示了语言、2D 图像和 3D 点云的数据模式比较,我们可以看到:

  • 与语言不同,3D 点云通常是非结构化的,并且包含稀疏语义,这导致BERT风格的 Tokenizer 在点云上的离散识别学习更加困难。

  • 2D 图像规则地分布在网格上,而 3D 点云从物体表面不规则地采样,这种结构差异导致难以构建跨模态学习中双方的局部语义的对应关系。

因此,如何设计一个具有丰富语义的表征成为 3D 表征学习的关键。


bba0cf2a3a6054f00797a2cda0c75e0e.png

预备知识

2.1 基于点云的Transformer

与 2D 图像相比,点云是无序的,因此很难实现固定位置的 patch embeding。一般的方法是,使用最远点采样(FPS)获取位置中心用于位置编码,在各位置中心进行 KNN 聚类以获取局部 patch,通过一个轻量级的 pointnet 获取局部 embeding,进而使用标准的 Transformer 进行特征提取。

545df9c8be9763b7b91074a2e36cbec5.png

2.2 知识蒸馏——掩码数据建模的统一视角

掩码数据建模可视为 denoising autoencoders(DAE)的一种特殊情况,他通过 delete token [9] 或将部分 token 替换为 [Mask] Token的方式 [5] 对原始数据进行扰动,并将完整数据或经过预处理的特征作为重建目标,在形式上可以视为一种特殊的带 mask 的蒸馏。在这种训练目标的设置下,模型将学习到 token 之间的一致性或相关性。用公式的方法书写,即为:

ddaebad89d8fa9cb8ff08b08e8951dbe.png

其中, 为 mask 指示函数, 表示某种度量函数,、 和 、 分别表示学生模型、教师模型的 Encoder 和 Decoder。, 表示为 为哈达玛积。

这种表示成功将各种掩码数据建模方法变成一个统一的形式。举例来说,对于语言 BERT 或者图像 BEiT,教师模型为一个预训练好的文本 tokenizer 或离散 VAE 图像 tokenizer,而 decoder 变成了一个非线性投影的 softmax,度量函数则变成 Cross-Entropy 函数;对于MAE,教师模型变成一个同一映射(identity mapping),且 encoder 只接受可见 token 输入,度量函数变成 MSE 距离或者 3D 上的 Chamfer 距离。

6612e903495c32e485fe78ab1bd09a4f.png

方法

基于上述分析,我们提出 ACT,将跨模式教师训练为自编码器,利用经过 2D 图像或自然语言预训练的基础 Transformers 作为跨模态教师,拥有深厚的知识和强大的表达能力。ACT 的 pipeline 如下图所示:

a67374b10ec383151f7fb586e2df0d63.png

第一阶段:我们将经过预训练的 2D 或语言 Transformer 迁移为 3D 自编码器,通过域迁移的方式,使用 prompt tuning 将跨模态知识迁移至 3D 几何结构。我们冻结了预训练的 2D 或语言 Transformer block,类似 VPT [10] 或 prefix tuning [11] 的参数高效微调方法,仅训练 prompt token、3D dVAE 的 encoder 和 decoder。第一阶段的训练 loss 为:

e4a227780565ecf5f36a747f6099ec7c.png

其中, 表示离散 3D dVAE tokenizer, 为 dVAE decoder 输出的离散 token, 以自动编码器的方式重建输入点云。

第二阶段:我们将训练好的 3D 自编码器作为 Tokenizer,用于通过掩蔽建模提取 3D 点云 Transformer 学生的潜在特征,将 AutoEncoder 中的跨模态知识通过掩码数据建模向学生网络进行蒸馏,即 ◦◦◦ 作为教师网络,◦ 作为学生网络。第二阶段的训练 loss 为:

3923b9d8b43aa2f15565509ca902a29e.png

其中,我们使用 作为 teacher 和 student 的度量 loss。

通过这种方式,3D 中的数据荒漠问题得到了缓解。Transformer 被用作通用的 3D 学习器,这缩小了在掩蔽建模表示学习方面的架构差距。通过简单地以自监督的方式将预训练的 Transformer 调整为 3D 数据的自动编码器,Transformer 可以使用 3D 点云并将其编码为具有丰富语义的表示。

为了保存和继承预先训练的基础知识,在该过程中使用了 prompt tuning。因此,我们的 ACT 使预训练的 Transformers 自发地跨模态教师,为 3D 点云提供语义丰富的掩蔽建模目标。注意,Transformer 可以编码任意长度的 embedding,因此我们可以自由的迁移语言或 2D Transformer blocks,直接接受 3D 的 embedding 序列进行特征编码。

e01ca0e6224d78c3ac935c711e5e5c86.png

实验

下表展示了我们在 ScanObjectNN 上了 classification 性能,包括 Full-tuning、Liner 和 MLP-3 三种配置,我们的 ACT 在迁移到 ScanobjectNN 分类任务的各种配置下均有大幅提升,这证明了跨模态教师作为自编码器的效果。

d81f1ac363341a5e07f237a5316ab0bc.png

下表展示了我们在 ModelNet40 上了 Few-Shot 性能:

6475e4b3f8bec9c087e01ad24234e42a.png

我们还在 Scene Level 中进行了预训练测试,我们以 3DETR [12] 作为模型和 baseline,ACT 在 ScanNetV2上 的 3D detection 效果如下表所示,可以看到 ACT 依然具有显著的性能提升。

a607eed1d08a32644d6c37821e7955bd.png

4512a5da3402244b4d6466eacd003cec.png

讨论

5.1 How does the 2D vision transformer understand 3D point clouds?

为了更好地理解 2D Transformer 如何通过 AutoEncoder 训练理解 3D 数据,我们研究了 VIT-B 在我们的 ACT dVAE 模型中使用的位置嵌入的效果。从下表中可以观察到:

  • 在没有任何位置嵌入的情况下,预训练的 VIT 仍然可以学习可传递的 3D 特征。我们认为,这是因为位置几何信息已经包含在输入的 3D 坐标中,并且预训练的. 2D 变换器可以纯粹通过几何特征处理 3D 数据,而没有明确的位置提示。

  • 当使用仅具有 2D xy 平面坐标的位置嵌入时,精度显著提高了+0.89%。我们认为,2D 位置嵌入是为了拟合冻结的图像变换器而学习的,使图像变换器能够以高发散性将 3D 输入编码到预训练的 2D 特征空间中。

  • 对于用于位置嵌入的所有 3D 坐标,2D 图像转换器成功地利用了额外的坐标信息来进行更好的特征编码。

31e89b710ef13e89393634b4be31a2f1.png

5.2 Teacher Choice

为了了解不同 foundation model 对于 3D 预训练的帮助,我们研究了 Vision Transformer 模型 ViT、DeiT,MLP-based 模型 ResMLP、MLPMixer,语言模型 BERT,以及 VL 模型 CLIP。结果如下图所示,可以看到 ViT-B 取得了最佳效果,而 BERT 作为语言模型居然也带来了非常显著的提升。

421f8356f0d18e0e47cb21196f1b5b2f.png

5.3 Visualization

  • 3D Autoencoder. 我们比较了基于 2D Transformer 的 3D dVAE 和 Point-BERT 3D dVAE 模型的重建结果。结果表明,我们的 3D 自动编码器可以重建物体的高质量细节。对于一些相对简单的对象,如第二行的矩形桌子,ACT 和 Point-BERT 都可以很好地重建它们。然而,对于细节相对复杂的点云,如第三行中的架子和扶手椅,我们的方法可以重建更具有详细局部几何信息的对象。

    ed988b1456f157e166cf0823c0ccf375.png

  • t-SNE. 为了分析 feature 在预训练前后的分布变化,我们对预训练模型在 ShapeNet 以及下游模型在 ModelNet 以及 ScanObjectNN 上进行了 t-SNE mainfold 可视化,如图所示:

    0b7f66ef6d36c3337e9b602e42c29b08.png

b1f9b8cff047b114cbc56fd01e57cfae.png

相关工作

相关后续工作包括 ReCon:

https://arxiv.org/abs/2302.02318

以及 CLIP-FO3D:

https://arxiv.org/abs/2303.04748

outside_default.png

参考文献

outside_default.png

[1] On the opportunities and risks of foundation models:https://arxiv.org/abs/2108.07258

[2] Bert: Pre-training of deep bidirectional transformers for language understanding:https://arxiv.org/abs/1810.04805

[3] Masked autoencoders are scalable vision learners:https://openaccess.thecvf.com/content/CVPR2022/html/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.html

[4] Learning transferable visual models from natural language supervision:https://proceedings.mlr.press/v139/radford21a

[5] Point-bert: Pre-training 3d point cloud transformers with masked point modeling:https://openaccess.thecvf.com/content/CVPR2022/html/Yu_Point-BERT_Pre-Training_3D_Point_Cloud_Transformers_With_Masked_Point_Modeling_CVPR_2022_paper.html

[6] Masked autoencoders for point cloud self-supervised learning:https://link.springer.com/chapter/10.1007/978-3-031-20086-1_35

[7] Crosspoint: Self-supervised cross-modal contrastive learning for 3d point cloud understanding:https://openaccess.thecvf.com/content/CVPR2022/html/Afham_CrossPoint_Self-Supervised_Cross-Modal_Contrastive_Learning_for_3D_Point_Cloud_Understanding_CVPR_2022_paper.html

[8] P2p: Tuning pre-trained image models for point cloud analysis with point-to-pixel prompting:https://arxiv.org/abs/2208.02812

[9] Masked autoencoders for point cloud self-supervised learning:https://link.springer.com/chapter/10.1007/978-3-031-20086-1_35

[10] Visual prompt tuning:https://link.springer.com/chapter/10.1007/978-3-031-19827-4_41

[11] Prefix-tuning: Optimizing continuous prompts for generation:https://arxiv.org/abs/2101.00190

[12] An end-to-end transformer model for 3d object detection:https://openaccess.thecvf.com/content/ICCV2021/html/Misra_An_End-to-End_Transformer_Model_for_3D_Object_Detection_ICCV_2021_paper.html?ref=https://githubhelp.com

更多阅读

5116d173d7639b560dd4c5f14b5a84b6.png

010ce4930675b5fb2f197d3778703952.png

f30d55f843923f7f6aff27bfa10e01cd.png

c55b08e992bb83f88ebce61502d595a1.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/368168
推荐阅读
相关标签