赞
踩
让大模型理解三维世界,NIPS论文《3D-LLM: Injecting the 3D World into Large Language Models》简要解读
本文是关于NIPS最新论文《3D-LLM: Injecting the 3D World into Large Language Models》的简要技术介绍。大模型已经在多个领域斩头露角,但是在三维领域,目前的工作并不算多。将三维与大语言模型结合起来,存在以下难点:
这篇文章着重解决将三维模型与大语言模型结合时遇到的上述问题。
本文写于2024年4月15日。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
题目:3D-LLM: Injecting the 3D World into Large Language Models
代码:https://github.com/UMass-Foundation-Model/3D-LLM
项目:https://vis-www.cs.umass.edu/3dllm/
引用:
@article{3dllm,
author = {Hong, Yining and Zhen, Haoyu and Chen, Peihao and Zheng, Shuhong and Du, Yilun and Chen, Zhenfang and Gan, Chuang},
title = {3D-LLM: Injecting the 3D World into Large Language Models},
journal = {NeurIPS},
year = {2023},
}
最新的大语言模型(LLMs,例如GPT4)以及多模态大语言模型(MLLMs,例如BLIP2等)层出不穷,但是它们是基于网络上爬取的大规模数据而非真实三维世界构建的。真实三维世界包含物体位置、功能和物理信息,有助于三维理解和推理任务,因此作者提出3DLLM,输入三维点云及其特征,输出与指令相关的语言序列。将三维表示作为输入有以下优点:
但是为LLM注入三维信息也存在三维数据稀缺的困难和三维特征与语言特征对齐的困难。作者通过以下手段解决:
市面上已经有了大量互联网2D图像及文本数据集,但是对于3D数据集多是任务限定的(例如ScanQA,ScanRefer等)。作者用GPT辅助生成三维语言数据。
以上的三维场景来源于以下数据:
现在的2D特征提取器已经很成熟了,并且是经过大规模预训练的(例如CLIP)。如果从头做3D的大规模预训练,数据短缺成本高昂不现实。因此,作者借鉴了目前很多人利用2D特征提取器提取3D场景特征的方式。作者通过在几个不同的视图中渲染3D场景来提取3D点的特征,并从渲染的图像特征构建3D特征。有了像素级别的2D特征后,作者通过以下方式构建3D特征:
从头训练3D-LLMs不现实,需要使用2D提取:通常情况下,训练使用了约50亿张图像之后,2D VLMs的训练才开始逐渐有效。它们使用冻结和预训练的图像编码器(如CLIP)来提取2D图像的特征。由于3D特征提取器可以将3D特征映射到与2D图像相同的特征空间,因此将这些预训练的2D VLMs用作主干简便而合理。作者设计的2D特征提取器有以下要点:
3D定位。如何将物体的位置信息引入到LLM中是另一个问题,一个简单的思路是,通过已与语言对齐的2D预训练特征提取器(如CLIP和EVA-CLIP)重建3D特征后,可以通过直接计算3D特征与语言特征之间的相似性来进行定位。但是作者更希望模型本身能够捕获3D空间信息。作者提出了一种3D定位机制,增强了3D-LLMs吸收空间信息的能力。该机制包括两个部分:
(1)用位置嵌入增强3D特征;位置嵌入部分是将位置嵌入添加到从2D多视图特征聚合的3D特征中。
(2)用位置标记增强LLM词汇表。位置标记部分则是将3D位置嵌入到词汇表中,使得3D空间位置与LLMs对齐。
作者在以下三种2D VLMs架构上进行了3D-LLMs:
对于BLIP-2,预训练3D-LLMs涉及从LAVIS库中的BLIP-2检查点初始化模型,然后微调QFormer的参数。3D特征为1408维,与BLIP-2使用的EVA_CLIP隐藏特征维度一致。LLMs的大部分部分(Opt和FlanT5)保持冻结状态,除了与输入和输出嵌入中的新添加的位置标记相关的权重。
对于Flamingo,模型从OpenFlamingo存储库中的Flamingo9B检查点初始化。对于感知器、门控交叉注意力层以及输入和输出嵌入中的额外位置标记的权重,参数进行了微调。3D特征为1024维,与Flamingo使用的CLIP隐藏特征维度一致。
数据集:训练和评估数据集及协议涉及将数据集分为两类:持有数据集和留出数据集。
基线模型与评估指标:作者将代表性的基线模型纳入我们的基准评估中。
除了上述基线之外,我们还引入了几个基于LLM的基线:
作者使用BLEU、ROUGE-L、METEOR、CIDEr进行稳健的答案匹配评估,以及准确匹配(EM)指标。
在BLEU-1方面,作者的模型在验证集上比最先进的ScanQA模型提高了约9%。在CIDEr方面,作者相比ScanQA报告了约10%的增长,明显优于其他基于3D的基线模型。这些结果表明,将3D集成到LLMs中可以生成更接近于真实答案的答案。
此外,传统的基于3D的基线模型利用对象检测器(如VoteNet)进行对象分割,然后将每个对象的特征输入模型。相比之下,作者的方法使用了没有显式对象表示的整体3D特征,表明作者的模型即使在没有显式对象表示的情况下也能进行关于对象及其关系的视觉推理。
随后,作者调查了2D VLMs是否具有相似的能力。然而,作者观察到当使用单视图或多视图图像作为输入时,性能大幅下降,与3D-LLMs相比。尽管多视图图像包含有关整个场景的信息,但它们的性能远远落后于3D-LLMs,可能是因为多视图图像特征的组织混乱,导致丢失了与3D相关的信息。
SQA3D 任务描述:SQA3D要求测试代理根据文本描述理解其在三维场景中的空间背景,包括位置和方向。随后,代理必须进行关于周围环境的推理,以准确回答提出的问题。
模型微调与比较:作者的方法涉及在SQA3D数据集上微调预训练的3D语言模型(3D-LLMs),作者的ScanQA+aux任务通过整合两个辅助任务:预测代理在给定情境中的位置和旋转,实现了最先进的性能(SOTA)。即使在训练过程中没有引入辅助任务和相关损失,作者的模型也取得了显著的性能提升。
作者对预训练的3D-LLMs在3DMV-VQA数据集上进行微调,并与基准模型进行比较。具体而言,3D-CLR通过基于3D特征的神经符号推理实现了最先进的性能(SOTA)。
3D-LLMs在概念和关系等问题类型上优于最先进的基准模型,并且在整体性能上也表现优异。作者的模型还优于3D-Feature+LSTM,展示了LLMs相对于具有类似3D特征作为输入的普通语言模型的优势。总体而言,基于3D的方法优于基于2D的方法。作者的3D-LLMs在性能上优于相应的2D VLMs与图像输入,进一步证明了3D表示对于3D-LLMs的重要性。
作者在三个任务的保留数据集上进行实验:3D字幕,3D辅助对话和任务分解。保留评估的基准包括2D视觉语言模型(VLMs)。此外,作者引入了一个仅语言的基准,FlanT5,以评估语言模型(LMs)在没有视觉输入的情况下完成任务的能力。
为了评估响应质量,作者采用BLEU、ROUGE-L、METEOR和CIDEr等指标。实验结果表明,3D-LLMs表现出生成高质量响应的能力,超越了2D VLMs和仅语言的LMs。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
者自知才疏学浅,难免疏漏与谬误,若有高见,请不吝赐教,笔者将不胜感激!
softargmax
2024年4月15日
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。