赞
踩
大型多模态模型(LMM)最近在视觉指令微调方面取得了令人鼓舞的进展。在这篇文章中,我们展示了 LLaVA 中完全连接的视觉语言跨模态连接器非常强大且数据高效。通过对 LLaVA 进行简单修改,即通过使用带有 MLP 投影的 CLIP-ViT-L-336px 并添加具有简单响应格式提示的面向学术任务的 VQA 数据,我们建立了更强大的基线,在 11 个领域上实现了新的SOTA基准。我们最终的 13B checkpoint仅使用 120 万个公开可用数据,并在单个 8-A100 节点上约 1 天完成训练。我们希望这能让最先进的 LMM 研究变得更容易实现。代码和模型将公开。
大型多模态模型 (LMM) 在研究界越来越受欢迎,因为它们是通用助手的关键构建模块。最近对 LMM 的研究正在集中在一个称为视觉指令微调的核心概念上。结果是有希望的,例如 LLaVA 和 MiniGPT-4 在自然语言指令遵循和视觉推理能力方面展示了令人印象深刻的结果。为了更好地了解 LMM 的功能,人们提出了多个基准测试。最近的工作进一步证明了通过分别扩展预训练数据、指令遵循数据、视觉编码器或语言模型来提高性能。LLaVA 架构还应用于不同的下游任务和领域,包括区域级和像素级理解、生物医学助理、图像生成、对抗性研究。
本文构建了基于 LLaVA 框架的更强大、更可行的基线。我们报告了两个简单的改进,即 一个MLP 跨模态连接器以及使用 VQA 等学术任务相关数据,它们与 LLaVA 的框架相互独立,并且与 LLaVA 一起使用时,可以带来更好的多模态理解能力。与 InstructBLIP 或 Qwen-VL 在数亿甚至数十亿的图像文本对数据上训练专门设计的视觉重采样器相比,LLaVA 使用最简单的 LMM 架构设计,只需要再600K 个图像-文本对数据上训练一个简单的全连接投影层。我们的最终模型可以在一台 8-A100 机器上在 ∼1 天的时间内完成训练,并在各种基准测试中取得最先进的结果。此外,与 Qwen-VL 在训练中包含内部数据不同,LLaVA 仅利用公开数据。我们希望这些改进且易于重现的基线能为开源 LMM 的未来研究提供参考。
Instruction-following LMM。常见架构包括用于编码视觉特征的预训练视觉backbone、用于理解用户指令并产生响应的预训练大语言模型 (LLM),以及用于将视觉编码器输出与语言模型对齐的视觉语言跨模态连接器。如图 1 所示,LLaVA 可能是最简单的 LMM 架构。或者,使用视觉重采样器(例如 Qformer)来减少视觉补丁的数量。训练指令遵循的 LMM 通常遵循两阶段协议。首先,视觉-语言对齐预训练阶段利用图像-文本对将视觉特征与语言模型的词嵌入空间对齐。早期的工作使用相对较少的图像文本对(例如〜600K或〜6M),而最近的一些工作在大量图像文本对(例如129M和1.4B)上针对特定语言模型预训练视觉语言连接器,以最大化 LMM 的性能。其次,视觉指令微调阶段根据视觉指令调整模型,使模型能够遵循用户对涉及视觉内容的指令的不同请求。
Multimodal instruction-following data。在自然语言处理中,研究表明指令遵循数据的质量在很大程度上影响指令遵循模型的能力。对于视觉指令微调,LLaVA 是利用纯文本 GPT-4 将现有 COCO 边界框和标题数据集扩展为多模态指令跟随数据集的先驱,该数据集包含三种类型的指令跟随数据:对话式 QA、详细描述和复杂的推理。LLaVA 的管道已用于扩展到文本理解、百万级和区域级对话。InstructBLIP 结合了面向学术任务的 VQA 数据集,进一步增强了模型的视觉能力。相反,[5] 发现这种简单的数据合并可能会导致模型过度拟合 VQA 数据集,从而无法参与自然对话。作者进一步提出利用 LLaVA 管道将 VQA 数据集转换为对话风格。虽然这对于训练来说是有效的,但它增加了数据扩展的复杂性。
Overview。作为视觉指令微调的初始工作,LLaVA 在视觉推理能力方面表现出了值得称赞的熟练程度,在现实生活中的视觉指令任务的各种基准上超越了最新的模型,而仅在通常需要简短答案的学术基准上有所欠缺( 例如单字)。后者归因于 LLaVA 没有像其他方法那样对大规模数据进行预训练。在本文中,我们首先研究表 1 中选定的三个数据集上的数据、模型和输入图像分辨率的缩放效果,然后在表 2 中的 12 个不同基准上将最终模型与现有 LMM 进行比较。LLaVA 的架构对于视觉指令微调而言功能强大且数据高效,并且使用比所有其他方法少得多的计算和训练数据来实现最佳性能。
Response formatting prompts。我们发现,对于像 InstructBLIP 这样的方法,无法平衡短格式和长格式的 VQA 主要是由于以下原因。首先,对回复格式的提示不明确。例如,
Q
:
{
q
u
e
s
t
i
o
n
}
A
:
{
a
n
s
w
e
r
}
Q:\{question\} A:\{answer\}
Q:{question}A:{answer}。 此类提示并不能清楚地表明所需的输出格式,并且即使对于自然的视觉对话,也可能使LLM在行为上过度适应简短的答案。其次,没有对LLM进行微调。第一个问题因 InstructBLIP 仅微调 Qformer 以进行指令微调而变得更糟。它需要 Qformer 的视觉输出token来控制 LLM 输出的长度为长格式或短格式,如前缀微调,但 Qformer 可能缺乏正确执行此操作的能力,因为与 LLM 相比其容量有限。有关定性示例,请参阅表 6。
MLP vision-language connector。受到从线性投影改为 MLP 提高自监督学习性能的启发,我们发现与原始线性投影设计相比,通过双层 MLP 提高视觉语言连接器的表示能力可以提高 LLaVA 的多模态能力。
Academic task oriented data。
Additional scaling。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。