赞
踩
这篇论文是KOSMOS-1的具体实现,将视觉与LLM融合在一起;它不是像visualGPT那样构建图像与LLM的pipeline,而是图像与LLM联合权重的统一大模型。对于人机交互场景非常有用。
论文地址:Language Is Not All You Need: Aligning Perception with Language Models
github: https://github.com/microsoft/unilm
国内版ChatGPT: http://chat.menganhealth.cn/
图 1:KOSMOS-1是一种能够感知多模态输入、遵循指令并执行上下文学习的多模态大型语言模型(MLLM),不仅可以用于语言任务,还可以用于多模态任务。在这项工作中,我们将视觉与大型语言模型(LLMs)对齐,推进了从LLMs到MLLMs的趋势。
向人工通用智能迈进的关键步骤在于语言、多模态感知、行为以及世界模型的大融合。在这项研究中,我们引入了KOSMOS-1,一种可以感知通用模态、在上下文中学习(即 few-shot 学习)并遵循指令(即 zero-shot 学习)的多模态大型语言模型(MLLM)。具体来说,我们从头开始训练 KOSMOS-1,在网页规模的多模态语料库上进行训练,包括任意交错的文本和图像,图像-标题对,以及文本数据。我们评估了各种设置,包括 zero-shot,few-shot 和多模态链式思维提示,在没有任何梯度更新或微调的情况下,针对一系列任务进行评估。实验结果显示,KOSMOS-1在以下方面取得了令人印象深刻的性能:(i)语言理解、生成,甚至 OCR-free NLP(直接以文档图像形式输入),(ii)感知语言任务,包括多模态对话,图像字幕,视觉问题回答,以及(iii)视觉任务,如图像识别描述(通过文本指令指定分类)。我们还展示了MLLMs可以从跨模态转移中受益,即从语言到多模态,从多模态到语言的知识转移。此外,我们引入了一种Raven IQ测试数据集,用来评估MLLMs的非语言推理能力。
图 2:从KOSMOS-1生成的选定示例。蓝色框是输入提示,粉红色框是KOSMOS-1输出。这些示例包括(1)-(2)视觉解释,(3)-(4)视觉问题回答,(5)网页问题回答,(6)简单数学方程,和(7)-(8)数字识别。
图 3:从KOSMOS-1生成的选定示例。蓝色框是输入提示,粉红色框是KOSMOS-1输出。这些示例包括(1)-(2)图像字幕,(3)-(6)视觉问题回答,(7)-(8)OCR,和(9)-(11)视觉对话。
表 1:我们在零次学习和少次学习设置下,评估KOSMOS-1在语言、感知语言和视觉任务上的能力。
大型语言模型(LLMs)已经成功地作为各种自然语言任务的通用接口 [ BMR+20]。只要我们能够将输入和输出转换为文本,LLM-based的接口就可以适应任务。例如,摘要任务的输入是文档,输出是其摘要。所以我们可以将输入文档送入语言模型,然后产生生成的摘要。
尽管在自然语言处理中有成功的应用,但是对于多模态数据(如图像和音频)来说,使用LLMs仍然面临挑战。作为智能的基本部分,多模态感知是实现人工通用智能的必要条件,无论是从知识获取还是对现实世界的理解。更重要的是,解锁多模态输入 [ TMC+21, HSD+22, WBD+22, ADL+22 , AHR+22 , LLSH23 ]大大扩大了语言模型的应用领域,包括多模态机器学习,文档智能,和机器人技术。
在这项工作中,我们引入了KOSMOS-1,一种可以感知通用模态、遵循指令(即zero-shot学习)并在上下文中学习(即few-shot学习)的多模态大型语言模型(MLLM)。目标是使感知与LLMs对齐,以使模型能够看见并进行交谈。具体而言,我们遵循METALM [HSD+22]的方法从头开始训练KOSMOS-1模型。如图1所示,一个基于Transformer的语言模型被视为通用接口,感知模块与语言模型对接。我们在网络规模的多模态语料库上训练模型,即文本数据、任意交错的图像和文本,以及图像-标题对。此外,我们通过转移仅语言数据来校准跨模态的指令遵循能力。
如表1所示,KOSMOS-1模型原生支持语言、感知语言和视觉任务。我们还在图2和3中展示了一些生成的例子。除了各种自然语言任务外,KOSMOS-1模型还原生处理一系列感知密集的任务,包括视觉对话、视觉解释、视觉问题回答、图像标注、简单数学方程、OCR,以及带有描述的 zero-shot 图像分类。我们还按照 Raven’s Progressive Matrices [JR03, CJS90] 构建了一个IQ测试基准,用来评估MLLMs的非语言推理能力。这些例子表明,对多模态感知的原生支持为将LLMs应用于新任务提供了新的机会。此外,我们展示了MLLMs相较于LLMs在常识推理性能上的提升,这表明跨模态转移有助于知识获取。
主要的结论如下:
从LLMs到MLLMs。适当处理感知是向人工通用智能前进的必要步骤。感知多模态输入的能力对LLMs至关重要。首先,多模态感知使LLMs能够获取超越文本描述的常识知识。其次,将感知与LLMs对齐为新任务打开了大门,如机器人技术和文档智能。第三,感知的能力统一了各种APIs,因为图形用户界面是最自然和统一的交互方式。例如,MLLMs可以直接阅读屏幕或从收据中提取数字。我们在网络规模的多模态语料库上训练KOSMOS-1模型,以确保模型能够从多样化的来源中稳健地学习。我们不仅使用大规模的文本语料库,还从网络中挖掘高质量的图像-标题对以及任意交错的图像和文本文档。
将语言模型作为通用接口。遵循METALM [ HSD+22 ]提出的理念,我们将语言模型视为通用的任务层。由于输出空间的开放性,我们能够将各种任务预测统一为文本。此外,语言模型可以很好地处理自然语言指令和动作序列(如编程语言)。LLMs也作为基本推理器 [WWS+22 ],在复杂任务中与感知模块相辅相成。所以,将世界、行动和多模态感知与通用接口(即语言模型)对齐是很自然的。
MLLMs的新能力。如表1所示,除了先前LLMs [ BMR+20 , CND+22]中发现的能力外,MLLMs开启了新的使用和可能性。首先,我们可以通过使用自然语言指令和示例进行zero-shot和few-shot多模态学习。其次,我们通过评估Raven IQ测试,观察到非语言推理的有希望的信号,该测试测量人类的流体推理能力。第三,MLLMs自然地支持一般模态的多轮交互,例如多模态对话。
如图1所示,KOSMOS-1是一种多模态语言模型,可以感知一般模态,遵循指令,学习上下文,并生成输出。给定之前的上下文,模型学会以自回归的方式生成文本。具体来说,KOSMOS-1的主干是一个基于Transformer的因果语言模型。除了文本外,其他模态也被嵌入并输入到语言模型中。Transformer解码器作为多模态输入的通用接口。我们在多模态语料库上训练KOSMOS-1,包括单模态数据,跨模态配对数据,和交错的多模态数据。一旦模型被训练,我们可以在语言任务和多模态任务上直接评估模型在zero-shot和few-shot设置下的表现。
Transformer解码器以统一的方式感知一般模态。对于输入格式,我们将输入压平为一个用特殊令牌修饰的序列。具体来说,我们使用<s>和</s>表示序列的开始和结束。特殊令牌<image>和</image>表示编码图像嵌入的开始和结束。例如,“<s> 文档 </s>”是一个文本输入,“<s> 段落 <image> 图像嵌入 </image> 段落 </s>”是一个交错的图像-文本输入。附录中的表21显示了一些输入格式的例子。
嵌入模块被用来将文本令牌和其他输入模态编码为向量。然后将嵌入输入到解码器中。对于输入令牌,我们使用查找表将它们映射到嵌入中。对于连续信号的模态(例如,图像和音频),将输入表示为离散代码,然后将它们视为“外语”也是可行的 [WBD+22,WCW+23]。在这项工作中,我们遵循[HSD+22],使用视觉编码器作为输入图像的嵌入模块。此外,Resampler [ADL+22]被用作一种注意力池化机制,以减少图像嵌入的数量。
获得输入序列的嵌入后,我们将它们输入到基于Transformer的解码器中。从左到右的因果模型以自回归的方式处理序列,通过在过去的时间步上条件化来生成下一个令牌。因果掩码用于掩盖未来的信息。在Transformer之上的softmax分类器用于在词汇表上生成令牌。
MLLMs作为通用接口[HSD+22],可以与自然语言和多模态输入进行交互。只要我们能将输入表示为向量,这个框架就能灵活地处理各种数据类型。MLLMs结合了两个世界的优点。首先,语言模型自然继承了在上下文学习和遵循指示的能力。其次,通过在多模态语料库上训练,将感知与语言模型对齐。
实现基于TorchScale3库[MWH+22],该库设计用于大规模模型训练。与标准的Transformer架构相比,我们包括以下修改:
MAGNETO 我们使用MAGNETO[WMH+22],一个Transformer的变体,作为主干架构。MAGNETO在各种模态上有更好的训练稳定性和卓越的性能。它在每个子层(即,多头自我注意力,和前馈网络)中引入了一个额外的LayerNorm。该方法具有理论推导的初始化方法[WMD+22],从根本上改善了优化,这使我们能够在不感到痛苦的情况下有效地扩大模型的规模。
XPOS 我们采用XPOS[SDP+22]相对位置编码,以更好地建模长上下文。该方法可以更好地推广到不同的长度,即,在短的情况下训练,而在更长的序列上测试。此外,XPOS优化了注意力分辨率,使得位置信息可以被更准确地捕捉。在插值和外推设置中,XPOS方法既高效又有效。
KOSMOS-1的训练在网络规模的多模态语料库上进行,包括单模态数据(例如,文本语料库)、交叉模态配对数据(例如,图像-标题配对)和交错的多模态数据(例如,任意交错的图像和文本的文档)。具体来说,我们使用单模态数据进行表示学习。例如,使用文本数据进行语言建模预训练了指令跟踪、上下文学习和各种语言任务。此外,交叉模态配对和交错数据学习将通用模态的感知与语言模型对齐。交错的数据也自然适合于多模态语言建模任务。我们在第3.1节中提供了更多关于训练数据收集的详细信息。
模型的训练是用下一个令牌预测任务进行的,即,学习根据之前的上下文生成下一个令牌。训练目标是最大化示例中令牌的对数似然。注意,只有离散的令牌,如文本令牌,才会被计入训练损失。多模态语言建模是一种扩展性的训练模型的方式。更重要的是,各种能力的出现使得训练任务对下游应用有利。
模型在网络规模的多模态语料库上进行训练。训练数据集由文本语料库、图像-标题对和图像和文本的交错数据组成。
文本语料库 我们使用 The Pile [GBB+20] 和 Common Crawl (CC) 训练我们的模型。The Pile 是一个用于训练大规模语言模型的大型英语文本数据集,它来自于各种数据源。我们排除了来自 GitHub、arXiv、Stack Exchange 和 PubMed Central 的数据分割。我们还包括了 Common Crawl 快照(2020-50 和 2021-04)数据集,CC-Stories,和 RealNews 数据集 [SPP+19,SPN+22]。整个数据集已经清除了重复和近乎重复的文档,并过滤掉了下游任务数据。关于训练文本语料库的详细描述,请参见附录 B.1.1。
图像-标题对 图像-标题对是从几个数据集中构建的,包括英文 LAION-2B [SBV+22],LAION-400M [SVB+21],COYO-700M [BPK+22] 和 Conceptual Captions [SDGS18, CSDS21]。英文 LAION-2B,LAION-400M 和 COYO-700M 是通过提取图像源和相应的 alt-text 从 Common Crawl 网络数据的网页中收集的。Conceptual Captions 也来自互联网网页。更多细节可以在附录 B.1.2 中找到。
交错的图像-文本数据 我们从 Common Crawl 快照中收集交错的多模态数据,这是一个公开可用的网页档案。我们使用过滤过程从快照中的原始 2B 网页中选择大约 71M 网页。然后,我们从每个选定网页的 HTML 中提取文本和图像。对于每个文档,我们限制图像的数量为五个,以减少噪声和冗余。我们还随机丢弃只有一张图像的一半文档,以增加多样性。我们在附录 B.1.3 中提供更多关于数据收集过程的细节。通过使用这个语料库,我们使 KOSMOS-1 能够处理交错的文本和图像,并提高其少量样本的能力。
MLLM组件有24层,隐藏维度为2048,FFN中间大小为8192,注意力头数为32,总共大约有13亿的参数。我们使用Magneto的初始化方法以确保优化的稳定性。为了加快收敛,图像表示从预训练的CLIP ViT-L/14模型中得到,特征维度为1024。在训练过程中,图像被预处理为224×224的分辨率。在训练期间,我们冻结了CLIP模型的参数,除了最后一层。KOSMOS-1的总参数数量大约为16亿。关于超参数的更多细节可以在附录A中找到。
我们使用了1.2百万个tokens的批量大小(0.5百万个来自文本语料库的tokens,0.5百万个来自图像-标题对的tokens,以及0.2百万个来自交错数据的tokens),并训练KOSMOS-1进行300k步,对应大约3600亿个tokens。我们采用AdamW优化器,β = (0.9, 0.98)。我们将权重衰减设置为0.01,dropout率设置为0.1。学习率在最初的375个预热步骤中增加到2e-4,然后在剩余的训练步骤中线性衰减到0。我们使用SentencePiece [KR18]来对文本进行分词。我们按照“完整句子”格式预处理数据 [LOG+19],这种格式将每个输入序列打包成完整的句子,这些句子是从一个或多个文档中连续采样的。
为了更好地使KOSMOS-1与人类指令相对应,我们进行了仅语言指令调优[LHV+23, HSLS22]。具体来说,我们继续使用指令数据训练模型,该数据格式为(指令,输入和输出)。指令数据仅包含语言,它与训练语料库混合。调优过程作为语言建模进行。注意,损失中不包括指令和输入。第4.9.1节显示了指令跟踪能力的提高可以跨模态转移。
我们将Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]组合为我们的指令数据集。Unnatural Instructions是一个数据集,该数据集通过使用大型语言模型为各种自然语言处理任务生成指令而创建。其核心数据集中有68,478个指令-输入-输出三元组。FLANv2是一组涵盖各种类型语言理解任务的数据集,如阅读理解,常识推理和闭卷问答。我们从FLANv2随机选择54k个指令示例以增加我们的指令数据集。训练超参数设置的详细信息描述在附录中。
MLLMs可以处理语言任务和感知密集任务。我们对KOSMOS-1进行如下各种类型任务的评估:
• 语言任务 - 语言理解 - 语言生成 - 免OCR文本分类 • 跨模态转移 - 常识推理
• 非言语推理 - 智商测试(Raven渐进矩阵)
• 感知-语言任务 - 图像描述 - 视觉问题回答 - 网页问题回答
• 视觉任务 - 零样本图像分类 - 附带描述的零样本图像分类
我们在视觉-语言环境下评估KOSMOS-1的感知-语言能力。具体来说,我们在两个广泛使用的任务上进行零样本和少样本实验,包括图像描述和视觉问题回答。图像描述涉及生成图像的自然语言描述,而视觉问题回答的目标是回答关于图像的自然语言问题。
我们在MS COCO Caption [LMB+14]和Flickr30k [YLHH14]上评估描述生成。我们使用COCO Karpathy分割[KFF17]的测试集,它将train2014和val2014图片[LMB+14]重新划分为训练集、验证集和测试集,分别为113,287、5,000和5,000。我们对Flickr30k的Karpathy分割测试集进行评估。图像分辨率为224×224。我们使用波束搜索生成描述,波束大小为5。在少样本设置中,我们从训练集中随机抽取示例。我们使用COCOEvalCap4来计算CIDEr[VLZP15]和SPICE[AFJG16]分数作为评估指标。我们用“An image of”提示KOSMOS-1进行零样本和少样本描述生成实验。
对于视觉问题回答任务,我们分别在VQAv2[GKSS+17]的测试-开发集和VizWiz[GLS+18]的测试-开发集上评估零样本和少样本结果。图像的分辨率为224×224。我们使用贪婪搜索进行解码。在计算VQA准确性时,我们遵循VQAv2评估代码5的规范化规则。我们在开放式环境中评估VQA的性能,即KOSMOS-1生成答案并在</s>(“序列结束”)标记处停止。视觉问题回答任务的提示为“问题:{question} 答案:{answer}”。
图像描述:表2显示了在COCO Karpathy测试分割和Flickr30k测试集上的零样本描述性能。在两个图像描述数据集的零样本设置中,KOSMOS-1都取得了显著的结果。具体来说,我们的模型在Flickr30k数据集上取得了67.1的CIDEr分数,相比之下,Flamingo-3B和Flamingo-9B模型的分数分别为60.6和61.5。值得注意的是,我们的模型在只有1.6B的规模下就能达到这一成就,而Flamingo模型的规模更大。这证明了我们模型在零样本图像描述上的优越性。
表 2:在COCO字幕Karpathy测试和Flickr30k测试上的零次镜头图像字幕结果。∗ Flamingo [ADL+22 ]提示来自下游任务的两个示例,同时移除它们对应的图像(即,类似于少次镜头文本提示)。其他模型在提示中不包括任何示例。
表 3:在COCO字幕Karpathy测试和Flickr30k测试上的少次镜头图像字幕结果。报告了CIDEr得分。
表 4:在VQAv2和VizWiz上的零次镜头视觉问题回答结果。我们提供了VQA准确度分数。"∗":Flamingo [ADL+22 ]使用两个来自下游任务的示例构建零次镜头提示,其中对应的图像被移除(即,类似于少次镜头文本提示),而其他模型评估真实的零次镜头学习。
表格5:在VQAv2和VizWiz上进行的few-shot视觉问答结果。报告了VQA准确率得分。
图 4:顶部:Raven IQ测试的一个例子。底部:在Raven IQ测试上评估KOSMOS-1。输入提示由平展的图像矩阵和口头指令组成。我们将每个候选图像分别附加到提示中,并查询模型是否正确。最终的预测是使模型产生最高“是”的概率的候选项。
视觉问题回答:表4报告了在VQAv2和VizWiz上的零样本视觉问题回答结果。我们展示了KOSMOS-1能更好地处理VizWiz数据集的多样性和复杂性。KOSMOS-1比Flamingo-3B和Flamingo-9B模型获得了更高的准确性和稳健性。此外,我们的模型在VQAv2数据集上与Flamingo具有竞争力。
图像描述:表2显示了在COCO Karpathy测试分割和Flickr30k测试集上的零样本描述性能。在两个图像描述数据集的零样本设置中,KOSMOS-1都取得了显著的结果。具体来说,我们的模型在Flickr30k数据集上取得了67.1的CIDEr分数,相比之下,Flamingo-3B和Flamingo-9B模型的分数分别为60.6和61.5。值得注意的是,我们的模型在只有1.6B的规模下就能达到这一成就,而Flamingo模型的规模更大。这证明了我们模型在零样本图像描述上的优越性。
视觉问题回答:表4报告了在VQAv2和VizWiz上的零样本视觉问题回答结果。我们展示了KOSMOS-1能更好地处理VizWiz数据集的多样性和复杂性。KOSMOS-1比Flamingo-3B和Flamingo-9B模型获得了更高的准确性和稳健性。此外,我们的模型在VQAv2数据集上与Flamingo具有竞争力。
瑞文渐进矩阵[Raven’s Progressive Matrices] [CJS90, JR03]是评估非言语推理能力的最常用测试之一。非言语推理能力通常反映了一个人的智商水平(IQ)。图4显示了一个示例。在一个3 × 3的矩阵中给出八个图像,任务是从六个相似的候选项中确定下一个元素。
模型需要在没有显式微调的情况下进行零样本非言语推理。瑞文智商测试类似于语言模型的上下文学习,其中的区别是上下文是非言语的还是言语的。为了推断答案,模型必须识别抽象概念并识别给定图像的底层模式。因此,智商任务是衡量非言语上下文学习能力的良好测试平台。
为了评估KOSMOS-1在零样本非言语推理上的表现,我们构建了一个瑞文智商测试的数据集。它由从不同网站6789收集的50个示例组成。每个示例有三个(即2 × 2矩阵)、四个或八个(即3 × 3矩阵)给定的图像。目标是预测下一个。每个实例有六个候选图像,其中有一个独特的正确完成。我们通过准确度得分来评估模型。评估数据集可在...查看。
图4展示了如何在瑞文智商测试上评估KOSMOS-1。矩阵式图像被展平,并一个接一个地输入到模型中。为了让模型更好地理解所需的任务,我们还使用了文字指导,“这里有三/四/八个图像:”,“下面的图像是:”,和“它是正确的吗?”用于条件化。我们将每个可能的候选项分别附加到上下文中,并在关闭式设置中比较模型输出“是”的概率。产生最大概率的候选项被视为预测。
表6显示了在IQ测试数据集上的评估结果。与和不使用语言指导微调的KOSMOS-1分别比随机基线提高了5.3%和9.3%。结果表明,KOSMOS-1能够在非言语上下文中感知抽象的概念模式,然后在多个选择中推导出下一个元素。据我们所知,这是模型首次进行这样的零样本瑞文智商测试。尽管当前模型与成年人的平均水平之间仍存在大的性能差距,但KOSMOS-1展示了MLLMs通过将感知与语言模型对齐来进行零样本非言语推理的潜力。
表 6:在Raven IQ测试上的零次镜头泛化。
OCR免费的语言理解是一个关注于理解文本和图像,而不依赖于光学字符识别(OCR)的任务。例如,在渲染的SST-2任务中,Stanford Sentiment Treebank [SPW+13 ]数据集中的句子被渲染为图像。模型被要求预测图像中的文本的情绪。这项任务评估了模型从图像中直接读取和理解单词和句子的含义的能力。
我们在渲染的SST-2 [ RKH+21 ]测试集和HatefulMemes [ KFM+20 ]验证集上评估OCR免费的语言理解能力。我们使用准确率作为渲染SST-2的度量,并报告HatefulMemes数据集的ROC AUC。我们使用提示“问题:这个观点的情绪是什么?答案:{答案}”,其中答案是积极的或消极的,用于渲染的SST-2。对于HatefulMemes任务,提示是“问题:这张图片是否包含真正的仇恨言论?答案:{答案}”,答案是是或否。
如表7所示,KOSMOS-1在HatefulMemes验证集上达到了63.9%的ROC AUC,而在渲染的SST-2测试集上达到了67.1%的测试准确率。它超过了CLIP ViT-L和Flamingo-9B,在HatefulMemes任务上分别达到63.3%和57.0%的AUC。请注意,Flamingo明确地将OCR文本提供给提示,而KOSMOS-1并未访问任何外部工具或资源。这表明KOSMOS-1具有内置的能力来阅读和理解渲染图像中的文本。
表 7:无OCR语言理解的零次镜头泛化。我们报告准确度得分。
网页问题回答旨在从网页中找到问题的答案。这要求模型能够理解文本的语义和结构。网页的结构(如表格、列表和HTML布局)在信息的排列和显示中起着关键作用。这个任务可以帮助我们评估模型理解网页语义和结构的能力。
我们在基于Web的结构阅读理解(WebSRC)数据集 [CZC+21 ] 上比较性能。为了比较,我们在与KOSMOS-1相同的文本语料库上训练了一个语言模型(LLM),训练设置也与KOSMOS-1相同。LLM以从网页中提取的文本作为输入。它的提示模板是“根据下面的网页背景,像这样从给定的文本中提取答案:问题:这本书的出版商是谁?答案:企鹅书籍有限公司。背景:{WebText} Q:{问题} A:{答案} ”,其中{WebText}表示从网页中提取的文本。除了使用相同的提示,KOSMOS-1在提示前面加上了图像。来自WebSRC的两个示例图像显示在附录C.3中。按照原始论文[CZC+21],我们使用完全匹配(EM)和F1分数作为我们的评估指标。
实验结果总结在表8中。我们观察到,KOSMOS-1优于LLM,这表明KOSMOS-1可以从网页图像中的布局和样式信息中受益。此外,我们评估了KOSMOS-1在提示中没有提取文本的性能。结果显示,提取的文本对KOSMOS-1的贡献为+12.0/20.7的EM/F1,表明从图像建模中获得的好处并不会牺牲其语言能力。
表 8:在WebSRC任务上的零次镜头表现。我们报告精确匹配(EM)和F1分数。
思维链提示[WWS+22]允许大型语言模型生成一系列推理步骤,并将多步问题分解为中间步骤,这可以显著提高复杂任务的性能。受到思维链提示的启发,我们使用KOSMOS-1进行了多模态思维链提示的研究。如图5所示,我们将感知-语言任务分解为两步。在第一阶段,给定一张图片,我们使用一个提示来引导模型生成一个理由。然后,模型被提供理由和一个任务感知的提示来产生最终结果。
图 5:多模态链式思考提示使KOSMOS-1能够首先生成一个理由,然后处理复杂的问题回答和推理任务。
我们在Rendered SST-2上评估多模态思维链提示的能力。我们使用提示“详细介绍这张图片:”来生成图片内容作为理由。然后,我们使用提示“{理由} 问题:这个观点的情绪是什么?答案:{答案}”来预测情绪,其中答案要么是正面的,要么是负面的。
我们进行了实验,评估多模态思维链提示的性能。表9显示,多模态思维链提示达到了72.9的分数,比标准提示高5.8点。通过生成中间内容,模型能够识别图片中的文本,并更正确地推断句子的情绪。
我们在ImageNet [DDS+09]上报告零次镜头图像分类的性能。图像分类将整个图像作为一个整体理解,并旨在为图像分配一个标签。我们将每个标签映射到自然语言中的类别名称。模型被提示预测类别名称以进行零次镜头图像分类。
表 9:在Rendered SST-2任务上的多模态链式思考(CoT)提示。
图 6:上下文语境中的口头描述可以帮助KOSMOS-1更好地识别视觉类别。
给定一个输入图像,我们将图像与提示“The photo of the”连接起来。然后将输入送入模型,得到图像的类别名称。我们在ImageNet [DDS+09]上评估模型,其中包含1.28M训练图像和50k验证图像,共有1k个对象类别。如果预测结果与真实的类别名称完全相同,则认为预测是正确的。用于评估的图像分辨率为224×224。我们使用波束搜索来生成类别名称,波束大小为2。
如表10所示,我们在受限和非受限设置下报告零次镜头结果。两种设置的区别在于我们是否使用1k对象类别名称来限制解码。在受限设置下,KOSMOS-1明显优于GIT [WYH+22],提高了4.6%,在非受限设置下提高了2.1%。
表 10:在ImageNet上的零次镜头图像分类。对于有约束的结果,我们使用1k ImageNet对象类别名称进行约束解码。我们报告top-1准确度得分。
如上所述,图像分类的标准方法是提示模型图像中描绘的对象的特定名称。然而,也有一些为不同用户和场景定制的分类规则,如复杂动物亚种的精细分类。我们可以利用自然语言描述来指导KOSMOS-1在零次镜头设置中区分图像,这使得决策过程更具可解释性。
表11:关于上下文图像分类的不同类别的详细描述
遵循CUB [WBW+11],我们构建了一个包含图像和类别自然语言描述的鸟类分类数据集。数据集有三组二元图像分类。每组包含两个外观相似的动物类别。我们的目标是根据类别的描述对图像进行分类。表11展示了数据样本。第一组来自[WBW+11],其他两组来自网站。每个类别包含二十个图像。
评估程序如图6所示。对于零次镜头设置,我们提供了两个特定类别的详细描述,并使用模板“Question:what is the name of {general category} in the picture? Answer:”以开放式方式提示模型特定类别的名称。为了评估在上下文中提供口头描述的效果,我们还实现了一个没有提示描述的零次镜头基线。相反,我们在提示中提供了相应的具体名称。
评估结果如表12所示。我们观察到,在上下文中提供描述可以显著提高图像分类的准确性。持续的改进表明,KOSMOS-1可以感知指令的意图,并且在语言模态中的概念与视觉模态中的视觉特征很好地对齐。
表12:零次镜头图像分类的结果,包括有和无口头描述的情况
给定任务指令(即零次镜头)或几个演示示例(即少次镜头)对模型进行语言任务评估。文本输入直接被喂入模型,就像在普通语言模型中一样。
我们训练了一个使用相同文本语料库和训练设置的语言模型(LLM)基线。我们在八个语言任务上评估KOSMOS-1和LLM基线,包括填空和完成任务(如StoryCloze,HellaSwag),Winograd风格任务(如Winograd,Winogrande),常识推理(如PIQA),以及来自SuperGLUE基准测试的三个数据集BoolQ,CB和COPA [ WPN+19 ]。这些数据集的详细描述在附录C.2中提供。我们在零次镜头和少次镜头设置下进行实验。我们通过随机抽样训练集中的例子作为示例,对每个测试例子进行评估。在我们的实验中,我们将次数设为0,1和4。
表13呈现了语言任务的上下文学习表现。与LLM相比,KOSMOS-1在填空完成和常识推理任务上实现了相当甚至更好的性能。在所有这些数据集的平均结果方面,LLM在零次镜头和一次镜头设置中表现得更好,而我们的模型在少次镜头(k = 4)设置中表现得更好。结果表明,KOSMOS-1也很好地处理了仅语言任务,并在各个数据集中实现了优秀的表现。此外,第4.9.2节显示,与LLM相比,MLLM更好地学习了视觉常识知识。
表13:KOSMOS-1和LLM在语言任务上的性能比较。我们使用相同的文本数据和训练设置重新实现了一个语言模型。为了公平比较,两个模型都没有使用指令调整。
跨模态转移能力允许模型从一种模态(如文本、图像、音频等)学习,并将知识转移到其他模态。这种技能可以使模型在不同模态之间执行各种任务。在这部分,我们在几个基准测试上评估KOSMOS-1的跨模态转移能力。
为了评估仅语言指导调整的效果,我们使用四个数据集进行剥离研究:COCO,Flickr30k,VQAv2和VizWiz。这些数据集包括图像字幕和视觉问题回答。评估指标是:COCO/Flickr30k的CIDEr分数以及VQAv2/VizWiz的VQA准确度。
表14显示了实验结果。仅语言指导调整提升了我们模型在Flickr30k上的表现1.9分,在VQAv2上提升了4.3分,在VizWiz上提升了1.3分。我们的实验表明,仅语言指导调整
表14:关于仅语言指令调整的消融研究。我们报告了COCO和Flickr30k的CIDEr得分,以及VQAv2和VizWiz的VQA准确度得分。
视觉常识推理任务需要理解现实世界中日常物体的属性,如颜色、大小和形状。这些任务对语言模型来说具有挑战性,因为它们可能需要比文本中可用的信息更多的关于物体属性的信息。为了调查视觉常识能力,我们比较了KOSMOS-1和LLM在视觉常识推理任务上的零次镜头性能。
评估设置 我们在三个对象常识推理数据集,RELATIVESIZE [ BHCF16 ],MEMORYCOLOR [ NHJ21]和COLORTERMS [ BBBT12 ]数据集上比较KOSMOS-1和LLM基线。表15显示了一些对象大小和颜色推理任务的例子。RELATIVESIZE包含来自41个物理对象的486个对象对。模型需要以“是”/“否”答案的二进制问题回答格式预测两个对象之间的大小关系。MEMORYCOLOR和COLORTERMS需要模型从11种颜色标签的集合中预测对象的颜色,格式为多选。我们仅使用文本作为输入,不包括任何图片。我们在这三个数据集上测量我们的模型的准确性。
表15:关于对象大小和颜色推理的评估示例
结果 表16展示了KOSMOS-1和LLM在视觉常识推理任务上的零次镜头性能。KOSMOS-1在RELATIVESIZE上比LLM提高了1.5%,在MEMORYCOLOR上提高了14.7%,在COLORTERMS数据集上提高了9.7%。持续的改善表明,KOSMOS-1受益于视觉知识,完成相应的视觉常识推理。KOSMOS-1表现优越的原因是它具有模态转移能力,使模型能够将视觉知识转移到语言任务。相反,LLM必须依赖文本知识和线索来回答视觉常识问题,这限制了其关于对象属性的推理能力。
表16:RELATIVESIZE、MEMORYCOLOR和COLORTERMS数据集上的零次镜头视觉常识推理。我们报告准确度得分
在这项工作中,我们介绍了KOSMOS-1,一个能够感知一般模态、遵循指令和进行上下文学习的多模态大型语言模型。在网页规模的多模态语料库上训练的模型在广泛的语言任务和多模态任务上都取得了有希望的结果。我们展示了从LLM到MLLM可以开启新的能力和机会。在未来,我们希望在模型大小[MWH+22,WMH+22,CDH+22]方面扩大KOSMOS-1的规模,并将语音[WCW+23]功能集成到KOSMOS-1中。此外,KOSMOS-1可以作为多模态学习的统一接口,例如,使指令和示例能够控制文本到图像的生成。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。