当前位置:   article > 正文

LAMM:多模态指令微调数据集、框架、评测基准

lamm社区

822db7ae4d010cc775ef76fb906f2a41.gif

最近,大型语言模型(LLM)因其在实现通用人工智能智能体(AI Agent)方面的出色表现而备受瞩目。蓬勃发展的开源 LLM 社区极大地推动了通过自然语言处理实现人机对话交互的代理系统的发展。

但是,人类与世界的互动不仅仅局限于文本,视觉等其他模态也同样重要。针对多模态大语言模型(MLLM),如 GPT-4V 和 Bard 等模型和应用,已经展示了它们在处理视觉信息方面的有效性。不过,这些研究的透明度不足以学术研究的需求。

来自上海人工智能实验室的学者推出该领域中最早的开源尝试之一,名为 LAMM(Language-Assisted Multi-Modal)。该项目提供了一个包含数据集、框架和基准的语言辅助多模态指导微调的开源平台。我们的目标是将 LAMM 发展成一个不断迭代和更新的生态系统,专注于训练和评估 MLLM,并进一步支持 MLLM 赋能 AI Agent 的平台和框架。

769c2ae806a4d6c5d5b669d571e1f17d.png

e90409ecaa5fe2decf3b3a8d4ebaeec0.jpeg

论文地址:

https://arxiv.org/pdf/2306.06687.pdf

项目地址:

https://openlamm.github.io

代码地址:

https://www.github.com/OpenGVLab/LAMM

LAMM 模型的多模态能力部分展示如下:

1. 阅读球场瞬息万变的动作

0a4c8031add23e655093e5c1b8b10136.gif

2. 强大的识别能力和知识检索能力

5cbf6cbe7ace60d3d9acdc265b4dcc47.gif

b21c7a14bb53110c8cdd009be510e549.gif

3. 敏锐的观察力

114b9419b64ee2531c21d53838b7c2b5.gif

08e661eb00675510671bc34d310c4ebf.gif

4. 三维空间导航

fb88ef0121e840951fcb0a3a0dcfef31.png

Dataset

作为第一批开源的多模态指令微调数据集,LLaVA-Instruct-150K、MiniGPT4 等工作采用了一种独特的方法,即使用 Bounding Box 作为图片替代输入 GPT4 API 生成和图片匹配的指令数据。同样,InstructionBLIP 通过模板重组现有的图像文本数据集,将其转换成对话形式。

然而,这些方法存在一些限制。首先,仅使用图片标签和边界框来表达图像信息是不够的,因为这些方法不能充分捕捉到图像的全部细节和复杂性。其次,预设的文本模板过于简单,可能导致模型过度拟合特定形式的数据。最后,这些方法仅限于图片模态,没有包含其他类型的模态,这限制了它们在多模态学习领域的应用范围。

08444ffb273fe5bf0f614d0943c7e23d.png

我们进一步扩展了多模态指令数据集的生成方法,并包括了图片、点云等模态。LAMM 数据集可以分为三部分:基于图片内容的对话、基于通用知识的对话、基于视觉任务的对话。

除了标签和 bounding box,我们进一步引入物体属性、场景图等信息,然后调用 GPT API 生成多轮日常对话和单轮详细描述数据。

为了拓展多模态大模型对于感知等视觉任务的能力,我们进一步引入了分类、检测、视觉问答等任务,用模板将已有数据集重组为对话数据。

对于通用知识,我们将图片类别作为关键词调用 Wikidata 中的详细解释,作为上下文输入 GPT API,生成基于客观知识的对话数据。

LAMM 数据集一共包含了 180K 图片-指令数据对以及 10K 点云-指令数据对分别用于训练 2D 模型和 3D 模型。

d65d78207b10da9443253caca625705b.png

Benchmark

cc24d2c7cf9d7a5bb6debdcaea1643e5.png

虽然多模态指令微调技术已经实现了多模态交互能力,但面向多模态大型语言模型的评估仍是一个相对未开发的领域。为了填补这一空白,LAMM 项目提出了一个新的多维评估框架,该框架基于现有的视觉任务,并已对 LLaVA、MiniGPT4 等模型进行了零样本迁移评估。这种评估方法从更细粒度的感知层面对现有的多模态大型模型进行了测试。

此外,我们还开发了 ChEF 框架,进一步完善了对多模态大型语言模型的评价体系。这不仅包括扩展评估数据集和任务,还包括引入了 in-context learning 和 chain-of-thought 等测试模式。这些测试模式的加入使得评估机制变得更加全面和可靠。

5d203b0db796c5e090280c2aa4b72dac.png

网络框架

a3a6ef601f851922b2d3cab1954a8e7d.png

LAMM 采用了一种端到端的训练方法,对不同的输入模态使用了一个统一的框架。这个框架包括编码器、特征映射层以及基于 LoRA 的大型语言模型微调等核心组件。其代码架构灵活地支持单个或多个模态的输入。此外,这些组件也可以根据特定需求进行相应的调整或替换,提供了高度的定制化和适应性。

dca9c66bb42693bd8553dff0688e4c30.png

Open Source

基于多模态大型语言模型(MLLM)的强大功能和广泛的应用潜力,LAMM 项目致力于创建一个促进多模态大模型研究的开源社区。为了便利用户,LAMM 的代码库设计了统一的数据集格式、模块化的模型架构和简便的一键式分布式训练功能。这些特性使得用户能够轻松启动并定制自己的多模态语言模型。

cdc6a398767e7782b3b56e3f132665d1.png

ac8766f167554a3d2c8dc617248bf4ca.png

结语

最近,大型语言模型在多模态领域取得了显著进展,展示出了令人瞩目的能力。作为这一领域的先行者之一,LAMM 项目不仅在 2D 和 3D 应用中探索了多模态语言模型的潜力,而且从应用角度对模型的性能进行了评估,为研究社区提供了重要参考。

此外,我们还开源了全部模型、数据集和训练、评测代码,以支持将这些代码应用于各种下游任务的训练中。我们期望这些资源能为后续的研究和开发工作提供有益的指导和帮助。关于 LAMM 的更多信息,欢迎访问我们的项目主页以了解详细内容。

更多阅读

7b6b7ba38a359c9911455b567b4a7e6f.png

c04039421ad1ab6de1b1ffddad525548.png

4975361e94602d86e5ca31abdbd2fb55.png

559178dd84ffabb757c45d97f27cb0bf.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/829448
推荐阅读
相关标签