赞
踩
关于预训练的诸多模型,博主已经在以往的文章中整理过:
本篇整理一下最近几篇关于Vision-Language Pre-traning(VLP)的综述文章,以及一篇很不错的,关于各个组件的选用指南文章。
VLP: A Survey on Vision-Language Pre-training
VLP 主要通过基于大规模数据进行预训练来学习不同模态之间的语义对应关系。一共包括以下方面的话题,特征提取、模型架构、预训练目标、预训练数据集和下游任务。
1)特征提取:包括 VLP 模型中图像、视频和文本的预处理和表示方法。
2)模型架构:从两个不同的角度,一是从多模态融合的角度分为单流与双流,二是从整体架构设计的角度分为 Encoder-only 与 Encoder-decoder 。
3)预训练目标:分为典型和特殊的预训练目标,可分为补全、匹配、时序和特殊类型:
4)预训练数据集,如下图。
5)下游任务。分为五类:分类、回归、检索、生成和其他任务。
Survey: Transformer based Video-Language Pre-training
这篇综述跟上篇差不太多,更为偏向与video一点。因此对于video特征编码上,有一些细化结论,即如何同时编码video的时间和空间信息。如ViViT 提出了四种将 ViT 扩展至视频处理的方法:
在目标任务上,这篇文章将其分为三类:填空任务、匹配任务和排序任务。
模型架构上,也是分单流和双流,一些典型模型的框架如下:
然后看一篇选用指南的文章。
An Empirical Study of Training End-to-End Vision-and-Language Transformers
VLP模型大多数都遵循同一个框架,包含五大模块,分别为Vision Encoder、Text Encoder、Multimodal Fusion、是否包含Decoder以及预训练任务,如上图。
这篇文章做了大量的实验,给出了一些在选用预训练模型的经验结论。
实验1 :不同的Encoder。
1:各个Text Encoder效果差距不大,RoBERTa效果最稳定;对于Vision Encoder来说,Swin Transformer取得了最好的效果。
2:两个训练技巧。随机初始化的参数和使用预训练初始化的参数要使用不同的学习率,前者的学习率设置的大一些更好。finetune阶段增大图像分辨率会带来效果显著提升。
实验2 :不同的Multimodal Fusion。
1:co-attention要比merged attention效果更好。因此最好对于不同模态使用一套独立的参数。
实验3 :不同的框架j结构,即Encoder-only和Encoder-Decoder对比。
1:Encoder-only模型的效果更好。
2:但是Encoder-Decoder模型更灵活,可以解决文本生成有关的任务。
实验4 :不同的预训练任务。
1:MLM任务和ITM任务都对模型效果有显著提升,其中MLM带来的提升更大。
2:而MIM任务,即mask部分图像再预测,加入预训练后效果反而出现下降。
paper:https://arxiv.org/pdf/2111.02387.pdf
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。