当前位置:   article > 正文

论文笔记 EMNLP 2021|Joint Multimedia Event Extraction from Video and Article_多模态事件抽取数据集

多模态事件抽取数据集

1 简介

论文题目:Joint Multimedia Event Extraction from Video and Article
论文来源:EMNLP 2021
论文链接:https://arxiv.org/abs/2109.12776

1.1 动机

  • 以前的一些方法试图从图像中转移视觉知识以改进纯文本事件提取,或者从文本和图像中联合抽取多模态事件,图像包含事件的快照,但可能无法在单个快照中捕获事件的所有论元或参与者。

1.2 创新

  • 提出了一个新的问题:视频多模体事件抽取,同时构造了一个新的数据集(包含事件类型、事件论元和角色、论元边界、文本和视频中事件的跨模态共指解析)
  • 提出了一个自监督的训练策略,发现共指的句子和视频段。
  • 提出了一个多模体transformer结构,利用特定的解码器进行联合文本和视频事件以及论元提取。在事件共指消解、事件抽取和论元角色标注任务中超过单模态和多模态baseline。

2 背景知识

视觉的事件抽取在CV领域被称为situation recognition,目标是检测图像中发生的事件、所涉及的对象,并识别它们的角色。

3 方法

3.1 构造数据集

共选择16种事件类型,在Youtube上选择视频和其下的文章,然后人工标注,数据统计如下图:
在这里插入图片描述

3.2 方法

3.2.1 任务定义
  • 多模态事件共指消解:给定M个句子和N个视频片段,预测共指 c i j ∈ { 0 , 1 } c_{ij}\in\{0,1\} cij{0,1}
  • 多模态事件抽取和论元角色标注:给定句子 x i x_i xi和视频片段 y j y_j yj,需要预测多模态事件类型e,文本提及 t e t_e te,每个论元角色 a k a_k ak对应的文本提及 t a k t_{a_k} tak、边界框 b b o x a k bbox_{ak} bboxak
3.2.2 多模态事件共指消解

使用ASR transcripts(自动语音识别),从未标注视频片段,学习两个模态的公共空间,Loss为noise contrastive loss (NCE),公式如下:
在这里插入图片描述
同时区域信息对发现视频和文本种的共指事件也是关键的,为了学习文本和对象区域之间的这种对应关系,使用多实例学习,Loss公式如下:
在这里插入图片描述
总的loss为:
在这里插入图片描述

3.2.3 多模态事件抽取和论元角色标注

在这里插入图片描述
模型的整体框架如上图,为一个encoder-decoder结构,编码器抽取和融合两个模态的信息,解码器包括两个head,一个是从文本中检测触发词、事件类型和论元。另一个是分类视频事件类型和预测视频论元的边界框(为了专注于联合多模态事件提取,对所有共指视频段-句子对进行采样以进行训练和评估)。
对于视觉token,使用下面4种特征进行编码(采样t个帧,采样t个置信分数最高的对象):

  • 视频级别特征。
  • 通过对象检测器得到的帧级别的对象标签。
  • 通过对象检测器得到的帧级别的边界框区域特征。
  • 对象检测器提供的帧级别的对象坐标。
    对于视频的解码,获得的目标序列是 { e , a 1 , b b o x , a 2 , b b o x , . . . , a n , b b o x } \{e,a_1,bbox,a_2,bbox,...,a_n,bbox\} {e,a1,bbox,a2,bbox,...,an,bbox},开始为事件类型,然后是论元类型 a i a_i ai和边界框bbox,使用teacher-forcing策略训练。
    总的Loss公式如下:
    在这里插入图片描述

4 实验

实验结果如下图:
在这里插入图片描述
在这里插入图片描述
定性分析:
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/470673
推荐阅读
相关标签
  

闽ICP备14008679号