赞
踩
论文题目:Joint Multimedia Event Extraction from Video and Article
论文来源:EMNLP 2021
论文链接:https://arxiv.org/abs/2109.12776
视觉的事件抽取在CV领域被称为situation recognition,目标是检测图像中发生的事件、所涉及的对象,并识别它们的角色。
共选择16种事件类型,在Youtube上选择视频和其下的文章,然后人工标注,数据统计如下图:
使用ASR transcripts(自动语音识别),从未标注视频片段,学习两个模态的公共空间,Loss为noise contrastive loss (NCE),公式如下:
同时区域信息对发现视频和文本种的共指事件也是关键的,为了学习文本和对象区域之间的这种对应关系,使用多实例学习,Loss公式如下:
总的loss为:
模型的整体框架如上图,为一个encoder-decoder结构,编码器抽取和融合两个模态的信息,解码器包括两个head,一个是从文本中检测触发词、事件类型和论元。另一个是分类视频事件类型和预测视频论元的边界框(为了专注于联合多模态事件提取,对所有共指视频段-句子对进行采样以进行训练和评估)。
对于视觉token,使用下面4种特征进行编码(采样t个帧,采样t个置信分数最高的对象):
实验结果如下图:
定性分析:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。