赞
踩
A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
我们提出了Visual—bert,目的在于实现视觉语言任务,我们进一步提出了四个视觉语言任务,包括 VQA visual question an- swering ,VCR visual commonsense reasoning ,NLVR natural language for visual reasoning 以及Flickr30k region- to-phrase grounding 来表明visual-bert超过了其他的模型。进一步的分析表明,Visual-BERT可以在没有任何明确监督的情况下,将语言元素与图像区域联系起来,甚至对句法关系非常敏感,例如跟踪动词与图像区域之间的关联。
VisualBERT集成了BERT、一个最近的基于transformer的模型(Vaswani et al., 2017),用于自然语言处理,以及预训练的对象建议系统,如fast - rcnn,它可以应用于各种视觉和语言任务。
并且,图片特征作为无序的输入token并且和文本一起整合。文本和图片的输入主要被多层transformer处理。在词和目标区域的交互文字和图像之间错综复杂的联系。
为了学习图像和文本之间的关联,我们考虑在图像标题数据上预先训练VisualBERT,其中图像的详细语义是用自然语言表示的。我们提出了两种基于视觉的语言模型目标用于pre-training:
(1)部分文本被掩蔽,模型根据剩余文本和视觉语境学习预测掩蔽词;
(2)对模型进行训练,以确定提供的文本是否与图像匹配
通过在COCO图像标题数据集上对VisualBERT进行预训练
我们进一步提供详细的消融研究来证明我们的设计选择。
进一步的定量和定性分析揭示了VisualBERT如何分配attention weights 来在内部对齐单词和图像区域。我们证明,通过预训练,VisualBERT学会了基础实体,并对单词和图像区域之间的某些依赖关系进行编码,这有助于提高模型对图像详细语义的理解
这里有相当长的研究,在连接视觉和语言,这些方法往往包含了文本encoder,图片提取,一个多模态融合模块(尤其是对于权重)。大多数的模型被设计用来特定的任务,但是visual-bert比较共通使用。有两个并行的研究与本文相似。VideoBERT (Sun等人,2019)将视频转换成与一系列图像配对的口语单词,并应用Transformer学习联合表示。他们的模型架构与我们的相似。然而,我们对烹饪视频的字幕进行评估,而我们对各种视觉和语言任务进行综合分析。与我们的工作同时,ViLBERT (Jiasen等人,2019)提议使用类似于bert的架构学习图像和文本的联合表示,但视觉和语言有单独的transformer,只能关注彼此(导致两倍的参数)。
图2:VisualBERT的体系结构。图像区域和语言与transformer相结合,使自我注意发现语言和视觉之间的隐性对齐。该算法使用蒙面语言建模(目标1)和句子图像预测任务(目标2)对字幕数据进行预训练,然后针对不同的任务进行微调。
BERT是一个Transformer ,使用子词作为输入,并使用语言建模目标进行训练。中的所有subwords输入句子嵌入映射到一组, BERT的训练通常分为两个步骤:前训练和微调。pre-training是通过结合两个语言建模目标来完成的:(1)掩盖了语言模型,输入标记的部分是随机替换为一个特殊的标记(例如, 和模型需要预测的身份令牌下句(2)预测,在给出的模型是一对句子并训练分类是否连续两个句子从一个文档。最后,为了将BERT应用于特定的任务,引入了特定任务的输入、输出层和目标,并根据预先训练的参数对任务数据进行了微调。
visual-bert核心思想是在Transformer中重用自我注意机制,以隐式对齐输入文本的元素和输入图像中的区域,我们引入一组视觉embeddings ,F,来建模一个图像。每个f∈f对应于从目标检测器导出的图像中的一个边界区域。F中的每一个embeddings 都是通过三次embeddings 的总和来计算的:(1) fo,由卷积神经网络计算得到的f的边界区域的视觉特征表示。(2)fs 指示它是图像embeddings 而不是文本embeddings (3) fp,一种位置embeddings ,当提供单词和边界区域之间的对齐作为输入的一部分时,将其设置为对齐单词对应的位置embeddings 之和。然后视觉embeddings 与原始文本embeddings 集一起传递给多层Transformer,允许模型隐式地发现两组输入之间有用的对齐,并建立一个新的联合表示。
训练visual-bert:
我们希望采用类似于BERT的训练程序,但VisualBERT必须学习适应语言和视觉输入。因此,我们得到了成对数据的资源:COCO,其中包含了每对图像与5个独立的字幕。我们的培训程序包括三个阶段:
Task-Agnostic Pre-Training:
在这里,我们使用两个基于视觉的语言模型目标在COCO上训练VisualBERT。(1)用图像进行mask语言建模。文本输入的一些元素被屏蔽,必须被预测,但对应于图像区域的向量没有被屏蔽。(2) Sentence-image预测。对于COCO,其中有多个对应于一个图像的标题,我们提供由两个标题组成的文本段。其中一个标题描述图像,而另一个有50%的机会是另一个相应的标题,50%的机会是一个随机绘制的标题。训练模型来区分这两种情况。
Task-Specific Pre-Training :
在将VisualBERT微调为下游任务之前,我们发现使用任务的数据和带有图像目标的mask语言建模来训练模型是有益的。此步骤允许模型适应新的目标域。
fine-tuning:
此步骤反映了BERT微调,其中引入了特定于任务的输入、输出和目标,并训练Transformer以最大化任务的性能
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。