赞
踩
关注公众号,发现CV技术之美
▊ 1. 论文和代码地址
Survey: Transformer based Video-Language Pre-training
论文地址:https://arxiv.org/abs/2109.09920
▊ 2. Introduction
Transformer已经在性能上显示出巨大的优势,并在深度学习(DL)中流行起来。与多层感知器(MLP)、卷积神经网络(CNN)和递归神经网络(RNN)等传统深度学习网络相比,transformer更适合于预训练和网络化,因为其网络结构易于深化,且模型bias较小。
典型的pretraining和finetuning是,模型首先在大量(通常是自监督的)训练数据上进行训练吗,然后在较小(通常是任务特定的)下游任务数据集上进行微调。预训练阶段有助于模型学习通用表示法,这有助于完成下游任务。
基于Transformer的预训练方法首次被提出用于自然语言处理(NLP)任务,并取得了显著的性能提升。受NLP领域基于Transformer的预训练方法突破的启发,计算机视觉(CV)研究人员近年来也将Transformer应用于各种任务中。
视频分析和理解更具挑战性,因为视频自然携带多模态信息。对于具有代表性的视频语言任务,如视频字幕和视频检索,现有的方法主要侧重于基于视频帧序列和相应字幕学习视频的语义表示。
在本文中,我们重点对视频语言处理中基于Transformer的预训练方法的最新进展进行了全面概述,包括相应基准的常用度量、现有模型设计的分类,以及一些进一步的讨论。
标准Transformer的结构如上图所示。
▊ 3. Proxy Tasks
代理任务(Proxy Tasks)主要可以分为三类:
1)完成任务(Completion tasks)的目的是重建被mask的token。典型任务包括Masked Language Modeling (MLM), Masked Frame Modeling (MFM), Masked Token Modeling (MTM), Masked Modal Modeling (MMM) and Language Reconstruction (LR)。
2)匹配任务(Matching tasks)旨在学习不同模态之间的一致性,视频语言匹配(Video Language Matching,VLM)是经典的匹配任务,其目标是匹配视频和文本模态。
3)排序任务(Ordering tasks)是在输入端对序列进行排序,并迫使模型识别原始序列顺序。例如,帧顺序建模(FOM)专门用于利用视频序列的时间特性,而句子顺序建模(SOM)专门用于文本模态。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。