赞
踩
论文:https://arxiv.org/pdf/2301.12597.pdf
代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2
BLIP(Bootstrapping Language-Image Pre-training)和BLIP-2都是在视觉-语言预训练领域的重要工作,旨在通过学习视觉和语言之间的联系来提升模型在多种下游任务上的性能。
然而,这两个模型在设计理念、实现方法以及目标任务上存在显著的差异。
设计理念:
实现方法:
目标任务:
设计理念:
实现方法:
目标任务:
对比总结:
BLIP-2 结构:
该模型通过两个阶段的预训练Querying Transformer来连接视觉和文本模态。
第一阶段通过冻结的图像编码器启动视觉与语言的表示学习。
第二阶段通过冻结的大型语言模型(LLM)启动视觉到语言的生成学习,使得模型能够实现零样本的图像到文本生成。
假设有一张图片,图片上是一只在公园里追球的小狗。
使用BLIP-2的方法,我们不需要对图像编码器进行任何新的训练。
这个冻结的预训练图像编码器已经学会如何识别图片中的对象,比如小狗、球和公园。
当这张图片通过图像编码器时,它能有效地提取出这些特征(小狗、球和公园)。
这些特征随后被用作语言生成模型的输入,即使这个语言模型原本并不直接处理图像数据。
这样,我们就能利用已有的高质量视觉表示,而无需额外的计算成本来重新训练图像编码器。
现在我们有了小狗追球的图像特征,接下来的挑战是如何让一个未曾直接处理过图像的大型语言模型理解这些特征,并生成相关的文本。
这里,BLIP-2引入了一个轻量级的查询变换器。
这个查询变换器被训练以从图像编码器提取的特征中挑选出最有意义的信息,然后以一种语言模型能理解的方式呈现这些信息。
在这个例子中,查询变换器可能会学习到如何将“小狗”、“球”和“公园”的视觉特征转换成语言模型可以利用的提示,比如“一只小狗在公园里追一个球”。
因此,即使语言模型原先并不直接处理图像数据,它现在也能基于这些转换后的提示生成描述性文本,如“快乐的小狗在阳光下追逐着球”,实现了有效的视觉到语言的跨模态学习。
通过这种方式,BLIP-2框架有效地解决了视觉和语言之间的信息交互问题,同时显著降低了预训练所需的计算资源。
Q-Former模型架构:
Q-Former由图像变换器和文本变换器组成,共享自注意力层。
上图展示了三个预训练目标:图像-文本对比学习、基于图像的文本生成和图像-文本匹配。
图的右侧显示了用于每个目标的不同自注意力遮罩策略,以控制查询和文本之间的交互。
BLIP-2如何使用不同类型的冻结LLM进行视觉到语言的生成学习:
顶部展示了基于解码器的LLM(例如OPT)的启动过程,其中全连接层将Q-Former的输出维度适配到LLM解码器的输入维度。
底部展示了基于编解码器的LLM(例如FlanT5)的启动过程,其中全连接层将Q-Former的输出适配到LLM的编码器,投影后的查询作为视觉提示用于文本生成。
假设我们有一张图片显示一只猫在窗边晒太阳,目标是生成描述这一场景的文本。
这一阶段通过图像-文本对比学习和图像-文本匹配任务来优化,使得Q-Former能够识别和提取与文本信息最相关的视觉特征。
例如,Q-Former的输出可能被转换成LLM能理解的形式:“一只猫坐在窗户旁边享受阳光”。
这时,冻结的LLM基于这些视觉提示开始生成文本,可能会产生如“一只悠闲的猫咪在温暖的阳光下打盹,享受着宁静的午后时光。”
这样详细且富有情感的描述。这个过程展示了Q-Former作为桥梁如何有效地将视觉信息转换成LLM可以理解和进一步加工的语言信息。
通过这个实例,我们看到了BLIP-2框架如何解决跨模态学习的挑战:
通过预训练的Q-Former桥接冻结的视觉和语言模型,使得无需对这些大型模型进行昂贵的再训练或微调,就能有效地结合它们的能力来解决复杂的视觉语言任务。
利用Q-Former的灵活架构和预训练策略,提取和传递最有意义的视觉信息给LLM,从而实现精确且自然的语言生成,这不仅提升了生成文本的质量,也展示了模型在理解和生成与视觉内容紧密相关的描述方面的能力。
这种方法的优点在于它结合了预训练模型的强大能力与新颖的训练策略,创造了一个既高效又强大的视觉语言学习框架。
BLIP-2证明了即使在资源有限的情况下,也能通过智能的模型设计和预训练策略,实现高水平的视觉语言任务性能。
假设我们的目标是生成一张图片的描述文本,其中图片显示一只戴着太阳镜的猫。
在视觉语言表示学习阶段,Q-Former学习如何从图像中提取代表“猫”和“太阳镜”等关键特征,并学习这些特征与“戴太阳镜的猫”这样的文本描述之间的关联。
在视觉到语言的生成学习阶段,这些视觉特征被转换成LLM能够理解的形式,并作为生成描述文本的输入。例如,Q-Former提取的特征被用来提示LLM生成文本描述“一只戴着太阳镜的猫”。
通过这个双阶段预训练过程,BLIP-2在视觉语言任务上实现了高性能,同时避免了对大规模预训练模型的昂贵重新训练。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。