Monodyee

这个屌丝很懒，什么也没留下！

热门标签

论文笔记--视觉语言模型（VLP）综述 A Survey of Vision-Language Pre-Trained Models_视觉语言模型综述

作者：Monodyee | 2024-04-04 22:02:15

踩

视觉语言模型综述

1 介绍

预训练：在大规模通用数据集上预先训练一个巨大的模型，然后在特定的下游任务上对其进行微调，这是一种提高可转移性的技术。

1.1 预训练一个VLP模型的三个步骤

将图像和文本编码并保留其语义
两种模式之间交互的建模（性能好的框架）
设计有效的预训练任务进行训练

2 视觉语言表示的学习

2.1 预训练数据集

大规模的图像文本对

2.2 文本表示

大多数的VLP模型使用BERT进行原始文本的预处理

2.3 图像表示

图像中视觉概念之间的关系难以捕捉，出现了许多采取不同建模方法的图像编码器来捕捉这些关系和对象的属性。

ViLBERT 利用Faster R-CNN从图像中检测对象区域序列，然后将其编码为感兴趣区域（ROI）特征序列
pixel-BERT 使用ResNet捕捉像素级特征，避免忽略某些区域
利用transformer建模图像中的对象关系，从而提取视觉特征。效仿ViT的成功

3 视觉语言交互建模

根据不同模式信息的聚合方式，作者将编码器分为融合编码器、双编码器以及二者的组合

3.1 融合编码器

在自注意力或交叉注意力机制后，最后一层的隐藏状态将被视为不同模式的融合表示。

3.1.1 单流架构

假设两种模式之间的潜在相关性和对齐性很简单，可以通过单个transformer编码器学习
将图像和文本的embedding连接在一起，并添加一些特殊的embedding以指示位置和模式作为输入
直接在两种模式上执行自注意力，可能会忽略模式内的交互

3.1.2 双流架构

分离模态内交互和跨模态交互（使用两个transformer、交叉注意力子层之后加入一个自注意力子层）
使用交叉注意力机制，query来自一种模态，key和value来自另一种模态
包含两个单项交叉注意力子层，一个从语言到视觉，一个从视觉到语言

3.2 双编码器

融合编码器依赖重型transformer网络进行V-L交互的建模，由于需要将图像和文本的embedding连接并输入到模型中，在执行跨模态检索等匹配任务时速度非常慢。双编码器可以很好的解决这一问题。

将图像和文本embedding投影到相同的语义空间，计算相似性分数

3.3 融合编码器和双编码器的组合

FLAVA 先采用双编码器获得单模态表示，再输入到融合编码器中
VLMo 将双编码器和融合编码器统一到一个框架中

4 跨模态预训练任务

4.1 Masked Language Modeling (MLM) mask文本建模

和BERT中的MLM相似，mask掉文本中的一些token，通过未mask的token和图像来对mask掉的token进行预测
方法不能过于简单，防止仅通过未mask掉的token即可预测出来，而未对图像进行学习

4.2 Masked Region Prediction (MRP) mask区域预测

mask图像中的一些RoI特征，基于图像其他特征和文本进行预测

4.2.1 Masked Region Classification (MRC) mask区域分类

学习mask区域的语义类，动机为VLP只是从语言方面学习图像的高级语义，而不是原始像素
ground-truth标签为物体检测器检测到的物体标签或以此作为软标签计算两个分布之间的KL差异

4.2.2 Masked Region Feature Regression (MRFR) mask区域特征回归

学习mask区域的高维向量
随机mask策略是有效的，但图像转换为grid特征和patch特征时该模型会直接复制相邻特征作为预测特征
- Visual parsing [Xue et al., 2021]使用patch特征表示图像，首先随机mask一个作为pivot token，接着mask掉注意力权重最高的k个
- SOHO[Huang et al., 2021]预训练一个视觉字典，mask掉共享相同视觉索引的所有特征以避免信息泄露

4.3 Image-Text Matching (ITM) 图像文本匹配

MLM和MRP有助于VLP模型学习图像和文本之间的细粒度相关性，而ITM使二者在粗粒度级别进行对齐，即要求模型确定图像和文本是否匹配，给出对齐概率。
关键是如何在单个向量中表示图像-文本对，以便得分函数可以输出一个概率

4.4 Cross-Modal Contrastive Learning (CMCL) 跨模态对比学习

输入图像和文本匹配的正样本和非匹配的负样本，学习相同语义空间下的通用视觉和语言表示

5 适应视觉语言下游任务

5.1 跨模态匹配

学习不同模态之间的跨模态对应

5.1.1 图像文本检索（ITR）

检索与给定文本最匹配的图像，反之亦然

5.1.2 视觉参照表达（VRE）

定位图像中与特定文本描述相对应的区域

5.2 跨模态推理

基于视觉信息进行语言推理。使用融合编码器更合适，因为其强大的交互建模能力

5.2.1 视觉问答（VQA）

回答有关图像的问题。大多数研究人员将其视为一项分类任务，即从答案库中选择正确的答案。
双编码器架构对于VQA任务并不那么有效，因为两种模态的交互过于浅
也有人将其建模为一个生成任务，[Cho et al., 2021; Wang et al., 2021b]，更好地推广到现实世界的开放式场景

5.2.2 视觉推理的自然语言（NLVR）

要求模型判断关于图像对地语句是否正确，可将其视为一个二分类任务

5.2.3 视觉常识推理（VCR）

VCR被认为是另一种VQA任务，VCR的任务更注重视觉尝试
可以分解为两个子任务
- 回答Q->A
- 回答理由Q+A->R

5.3 视觉和语言生成

5.3.1 文本到图像生成

X-LXMERT [Cho et al., 2020]、DALL-E [Ramesh et al., 2021]

5.3.2 多模式文本生成

通过文本、图像等条件生成问文本，过程中需要解码器
图像字幕是一种典型的图像到文本的生成任务 XGPT [Xia et al., 2021]、 VL-T5 [Cho et al., 2021]
多模式机器翻译，引入图像以提高翻译质量。VL-T5 [Cho et al., 2021]

6 未来方向

统一模型架构：基于Transformer的模型在NLP、CV和多模式任务上表现出惊人的性能。基于transformer的模型在各个领域的成功表明，可以使用单个transformer模型来学习不同模式的表示，并构建一个通用代理来处理不同领域的任务。UNIMO [Li et al., 2020b]、FLAVA [Singh et al., 2021]、Data2vec [Baevski et al., 2022]
模型压缩和加速：当前很难在实际场景中部署如此庞大的模型
更先进的预训练方法
达到VLP模型的极限：建立更大的模型或使用更大的数据集

原文链接：https://arxiv.org/pdf/2202.10936.pdf

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】