当前位置:   article > 正文

视觉理解论文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS_vl-bert: pre-training of generic visual-linguistic

vl-bert: pre-training of generic visual-linguistic representations

背景

这是微软亚研院的工作,将纯文本设定的bert扩展到visual-linguistic场景,从预训练到fine-tune,可以用于多个下游任务。

摘要

作者提出了一个可预训练的用于学习视觉-语言任务通用表征的模型VL-BERT,VL-BERT以transformers为主干,可以同时接受V、L特征作为输入。预训练任务使用了包括visual-language数据集Conceptual Captions,纯文本语料数据集BooksCorpus&English Wikipedia。该预训练模型可以微调至大多数下游视觉-语言相关任务中,实验表明VL-BERT在多项任务中都取得了不错的结果。

动机

(1)在视觉或者文本领域,预训练得到通用表示已经在一系列任务上取得显著的成效。在视觉领域,有在ImageNet上预训练过的各类backbone;在自然语言处理任务中,有预训练模型Bert。但是,在V-L任务中经过预训练的通用表征模型仍然匮乏(大部分是任务特定的模型)。
(2)V-L中任务特定的模型的使用,使得它们(模型本身)很难从预训练任务中获得收益(因为预训练任务可能与目标任务大相径庭)。
所以,作者希望学习一个generic的表示,可以把视觉和语言的信息结合并且对齐

贡献

提出了VL-BERT,一个用于视觉-语言任务的可训练通用表征,Backbone使用Transformer,同时以视觉特征、语言特征作为输入(输入word或者RoI,对应的feature形式分别是wordPiece embedding和fast R-CNN提取的feature

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/361379
推荐阅读
相关标签
  

闽ICP备14008679号