赞
踩
S. Yin et al., “A Survey on Multimodal Large Language Models.” arXiv, Jun. 23, 2023. doi: 10.48550/arXiv.2306.13549.
多模态大语言模型(MLLM)是近年来以强大的大语言模型(LLM)作为大脑任务的多模态研究热点。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,我们提出了MLLM的公式,并描述了它的相关概念。然后,我们讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和llm辅助视觉推理(LAVR)。最后,我们讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,我们将继续更新这项调查,并希望它能激发更多的研究。
An associated GitHub link collecting the latest papers is available at
https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models.
LMM在In-Context Learning (ICL) [5], instruction following [4, 6], and Chain of Thought (CoT) [7]等方面都表现良好。但是仅限于理解离散文本,对视觉不敏感。 大视觉基础模型在感知方面发展迅速,传统的文本结合注重模态对齐和任务统一,但是在推理方面发展缓慢。
因此,将LLM和视觉模型相结合,就可以带来了MLLM,并带来了一下便利。
(1) MLLM更符合人类感知世界的方式。
(2) MLLM提供了一个更为用户友好的界面。
(3) MLLM是一个更全面的任务解决方案。
本文将近期代表性MLLM分为四种主要类型:多模态指令调整(MIT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和llm辅助视觉推理(LAVR)
。
§ 3.1 介绍了多模态指令调整(M-IT),用以解释LLM如何适应多模态(两个方面)。
§ 3.2 介绍了多模态上下文学习(M-ICL),一种在推理阶段提高少样本性能的技术。
§ 3.3 介绍了多模态思维链(M-CoT),用于复杂推理。
§ 3.4 介绍了LLM在辅助视觉推理(LAVR)中的作用。
还有一些研究方向。
指令(Instruction) 是指对任务的描述,指令调整(Instruction tuning)是在指令格式数据集下对预训练LLM进行微调。通过指令微调,LLM可以通过遵循新的指令来泛化到不可见的任务,从而提高零样本(zero-shot)性能。
图1是三种学习范式:Pretrained fintune, Prompting, Instruction tuning
部分最新的工作是将LLM指令调整扩展到多模态,在数据和模型两个方面做调整。
在以下几个部分中介绍的任务是:
Table 1 提供了一个多模态指令的数据模板。<BOS>
和<EOS>
是文本序列的起始和结尾。
<instruction>
是问题的文本描述,{<image>, <text>}
以及
<output>
是从数据样本中提取出的输入输出(可能缺少<text>
)。
可以将多模态样本标记为
(
I
,
M
,
R
)
(\mathcal{I},\mathcal{M},\mathcal{R})
(I,M,R),预测的过程如下:
A
=
f
(
I
,
M
,
θ
)
\mathcal{A}=f(\mathcal{I},\mathcal{M},\theta)
A=f(I,M,θ)
符号说明:
I
:
i
n
s
t
r
u
c
t
i
o
n
,
M
:
m
u
l
t
i
m
o
d
a
l
i
n
p
u
t
,
R
:
g
r
o
u
n
d
t
r
u
t
h
\mathcal{I}: instruction,\ \mathcal{M}: multimodal input,\ \mathcal{R}: groundtruth
I:instruction, M:multimodalinput, R:groundtruth
A : a n s w e r , θ : p a r a m e t e r s \mathcal{A}: answer,\ \theta: parameters A:answer, θ:parameters。
训练目标通常是用于训练LLMs的原始自回归目标(auto-regressive objective),MLLM被要求预测响应中的下一个标记(token)。目标的数学表示为:
L
(
θ
)
=
−
∑
i
=
1
N
log
p
(
R
i
∣
I
,
R
<
i
,
θ
)
\mathcal{L}(\theta)=-\sum_{i=1}^{N}\log p(\mathcal{R}_i|\mathcal{I},R_{<i},\theta)
L(θ)=−i=1∑Nlogp(Ri∣I,R<i,θ)
关于 auto-regressive objective
自回归是一种生成模型的训练方法,在该方法中,模型被要求根据先前生成的标记来预测下一个标记。原始的自回归目标是让模型在训练过程中根据上下文生成连续的标记序列,以最大化生成序列的概率。
在对齐预训练过程中,我们主要关注的是训练一个可学习的接口,它的作用是将这些预训练模块连接起来并进行整合。这个接口可以是一个神经网络层或模块,它将视觉编码器和LLMs的输出进行处理和融合,以便在多模态任务中得到最佳的性能。
M-IT的数据收集大致分为以下几种:基准自适应(benchmark adaptation)、自我指导(self-instruction)和混合组合(hybrid composition)。指令的设计方面包括两种:手动和GPT辅助设计。
**基准自适应(Benchmark Adaptation)**数据集拥有丰富的高质量数据,可以利用现有的数据构建指令格式化数据集(instruction-formatted datasets)。
以VQA数据集转换为例,作者介绍了两种获得数据集的方式:
如何解决因VQA等问题中回答较短的问题?
**自我指导(self-instruction)**数据集解决了基准自适应通常无法满足人类需求(例如多轮对话)的问题。这些方法利用少量手工注释的样本,引导LLM(Language Learning Models)生成文本指令遵循的数据。
**混合组合(Hybrid Composition)**主要是将语言仅的用户-助手对话数据和M-IT数据(多模态指令-目标数据)结合在一起,作为训练数据的一部分。语言仅的用户-助手对话数据主要是关于对话交互的文本数据,而M-IT数据是多模态任务的数据,包含了指令和相关的多模态信息。这两种数据在类型、内容和用途上都有所不同,但它们的结合使用可以提供更全面和丰富的训练信号,以改进模型的对话能力和指令遵循能力。
基准自适应中提到的GPT辅助生成指令和自我指导数据集的区别如下。
GPT辅助生成指令:
GPT模型作为一个辅助工具,用于生成指令样本。
设计种子样本:选择图像和对应的人工标注描述作为种子样本。
GPT模型生成:使用图像作为输入提示,GPT模型生成辅助性的指令,如"描述图像中的物体、场景或情感"。
人类生成:基于GPT生成的指令,人类进一步生成图像描述样本。
扩充数据集:将人类生成的样本与种子样本结合,形成扩充的数据集。
自我指导方法:
模型直接生成训练样本,无需人类的中间步骤。
设计种子样本:选择图像和对应的人工标注描述作为种子样本。
模型生成:使用已经训练好的模型(如ChatGPT或GPT-4),将图像作为输入,模型直接生成与图像相关的训练样本。
扩充数据集:将生成的样本与种子样本结合,形成扩充的数据集
模态桥接的方法有两种:
1、可学习的接口(Learnable Interface)
在传统的模型优化方法中,参数通常是通过离线训练和调整得到的,并且在模型部署后很少改变。但是,Learnable Interface的思想是将接口本身视为可学习的组件,使模型能够自适应地调整接口以适应不同任务和环境。可学习的接口提供了一种机制,用于将不同模态的表示进行对齐、融合或传递信息。这种表示可以是一组可学习的权重、参数或特殊的输入表示等。有三种形式:
**2、专家模型(Expert Model)**将多模态输入转换为语言并传入LLM,但是这种方式通常会导致信息丢失。
评估M-IT之后的模型性能主要考虑闭集(close-set)和开集(open-set)。
闭集是指问题的答案是属于一个有限集合(finite set)。因此对模型的评估在基础自适应数据集(benchmark-adapted datasets)上进行。测试设置分为两种
上述评估方法通常被局限在特定的任务或数据集中,缺乏全面的定向比较。为了解决这个问题,可以通过增加一些新的基准自适应数据集。
ICL两个优点:
在推理过程中,M-ICL通过在原样本上加入一个演示集合(demonstration set)来组成上下文。演示集合通常由具有代表性的示例组成,这些示例与目标任务相关,并能够涵盖任务的不同方面和情况。
在多模态应用方面,M-ICL主要用于两种场面:
CoT展示推理过程中的一系列步骤,不仅输出答案,而且包括推理过程。多模态思维链主要包括一下几点:
§ 3.3.1 模态桥接
§ 3.3.2 关于M-CoT的不同范式
§ 3.3.3 具体配置
§ 3.3.4 思维链的公式
与§ 3.1.5类似,模态桥接也是通过可学习接口和专家模型两种方式。
Learnable Interface: 将视觉嵌入映射到单词嵌入空间的方法,映射后的嵌入可以作为提示(prompt),与其他语言一起发送给LLMs,以引发多模态链式推理(M-CoT reasoning)。
广义上有三种获取M-CoT能力的方式,即通过微调(finetuning)和少样本\零样本无需训练的学习。这三种方式所需样本数量从高到低排列。
微调:例如在CoT-PT中,通过提示调优(prompt tuning)和特定步骤的视觉偏置(step-sepecific visual bias)从而学习隐式的推理链。
少样本、零样本无需训练学习 的计算效率较高。
少样本学习需要一些手工标注的上下文样例以便模型能一步一步学习;而零样本学习则不需要具体的实例。
一些任务会提示模型有关任务的信息或者将任务划分为子任务。
思维链配置可分为自适应性(adaptive)和预定义(pre-defined)模式。前者需要模型自行判断停止的时间,而后者设置了思维链长度。
形成思维链的过程涉及到模型对问题进行推理和逐步生成答案的过程。下面是一种常见的方法来形成思维链:
1、提供问题和初始提示:将问题和一个初始的提示输入给模型作为开始。初始提示可以是一个简单的问题描述或是一些初步的信息。
2、生成推理步骤:模型开始进行推理,根据问题和当前的提示生成一个推理步骤。这个步骤可以是一个中间的推理结论、一个证据或是一个问题的分解。
3、更新提示:将生成的推理步骤与当前的提示结合起来,形成一个更新的提示。这个更新的提示将包含之前的推理步骤并提供更多的上下文信息供模型继续推理。
4、重复步骤2和步骤3:重复进行步骤2和步骤3,通过生成新的推理步骤和更新提示的方式逐步扩展和完善思维链。
5、终止条件:在某个终止条件满足时结束思维链的生成。这个终止条件可以是达到最大步骤数、生成了最终答案、无法进一步推理等。
当前关于思维链构建有两种主要模式:和基于预测(predicting-based)。
工具辅助语言模型(tool-augmented LLMs)促进了一些研究,进一步构建了针对特定任务(task-specific)或通用(general-purpose)的视觉推理系统。与传统的视觉推理模型相比,这些工作在泛化能力、新型能力以及互动性和控制性 等方面具有优势。
这一部分的主要内容包括:
§ 3.4.2 训练范式(Training Paradigms)
§ 3.4.3 LLM在视觉系统中的作用
LLM辅助视觉推理系统根据训练范式被分为无需训练和微调两种。
无需训练(Training-free) 的方式主要通过冻结预训练模型并直接提示(prompt)LLM来满足不同需求,根据设置不同可以分为少样本和零样本两类。
**微调(Finetuning)**的方式(见3.1)。收集了一个新的与工具相关的指令数据集,并用于微调模型。
在视觉推理系统中,LLM通常有控制器(Controller)、决策者(Decision Maker)和语义优化器(Semantics Refiner)三种功能。
LLM 作为控制者时,主要职责为
关于Least-to-most prompting
该策略的核心思想是,通过逐步增加提示的数量和详细程度,引导LLM生成更准确和具体的输出。最初,系统可能只给出一个简单的提示或要求,以启动LLM的生成过程。然后,根据LLM的输出,逐步增加更多的提示信息,以引导LLM在输出中表达更多细节和精确性。
LLM作为决策者时,复杂任务通常以多轮迭代的方式解决,决策者的主要职责为
LLM 作为语义优化器时,主要是使用语言学和语义知识。LLMs的任务是对生成的文本进行进一步的优化,以确保语义的准确性、一致性和流畅性。
评估LLM辅助视觉推理系统的方式有两种:基准指标(benchmark-metrics)和人工指标(manual assessment)。前者时在基准数据集上进行测试,后者则采用了一些人工评价指标。
该部分总结了一些挑战和未来的方向。
局限性 | 可能的解决方案 |
---|---|
感知能力限制带来的信息缺失和错误 | 考虑引入大型视觉基础模型来更有效地压缩视觉信息 |
作者指出MLLMs在推理过程中可能存在脆弱性 | 需要探索和改进MLLMs在整合视觉信息后的推理能力 |
指令遵循能力较弱 | 通过覆盖更多任务来提高泛化能力 |
幻觉问题导致MLLM的可靠性不高 | 在视觉模式和文本模式之间执行更细粒度的对齐,例如对SAM分割后的局部特征进行文字描述 |
需要参数高效的训练 | 压缩模型结构或者优化训练算法、迁移学习等 |
论文主要是调查了MLLM文献,具体内容包括
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。