赞
踩
文章提出了一种基于Scene Graph Prediction(SGP)来进行多模态模型预训练的方法,得到预训练模型ERNIE-ViL。实验证明,ERNIE-ViL在多个NLP任务中达到了SOTA水平,且在VCR任务上实现3.7%的提升,表明SGP预训练目标对“需求模型理解详细语义对齐”的任务有显著的帮助。
文章的目的是训练一个多模态模型。常用的多模态模型训练方法包括统一的视觉-文本模型和双流Transformer两类。文章选用的是双流跨模态Transformer。具体来说,
首先简要介绍下Scene Graph(SG)的概念。Scene Graph指包含视觉场景的结构化知识,其中graph的节点为图像中的目标(对应目标检测中的目标),边为目标之间的关系。Scene graph中包含了很多语义信息。参考ERNIE2.0[1]模型知识掩码的思想,ERNIE-ViL将SG中的信息进行掩码和预测,具体包含目标预测、属性预测和关系预测三个目标,如下图左边所示
首先文章通过已有的Scene Graph Parser工具从文本中提取出SG,如上图右边所示。具体来说,给定句子
w
w
w,SG可表示为
G
(
w
)
=
<
O
(
w
)
,
E
(
w
)
,
K
(
w
)
>
G(w) = <O(w), E(w), K(w)>
G(w)=<O(w),E(w),K(w)>,其中
O
(
w
)
O(w)
O(w)为句子
w
w
w中出现的目标集合,
E
(
w
)
E(w)
E(w)为句子中出现的目标之间关系集合,
K
(
w
)
K(w)
K(w)为句子中出现的目标的属性集合。
接下来文章通过三个预测任务来学习SG中出现的高级知识
文章提出了ERNIE-ViL模型,首次将Scene Graph知识引入到预训练的多模态模型,在包括VCR等下游任务中超过SOTA。
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs
[1] 论文笔记–ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
[2] 论文笔记–BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。