赞
踩
关注公众号,发现CV技术之美
▊ 写在前面
多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识,能够从互联网上的大量多模态数据中提取摘要信息(即化繁为简 )。
另一方面,近年来,大规模的生成预训练语言模型(generative pretrained language models,GPLMs)已被证明在文本生成任务中是有效的。
然而,现有的MAS模型不能利用GPLMs强大的生成能力 。为了填补这一研究空白,在本文中,作者的目标是研究两个问题:
1)如何在不损害GPLMs生成能力的情况下注入视觉信息?
2)在GPLMs中注入视觉信息的最佳位置在哪里?
在本文中,作者提出了一种简单而有效的方法来构建视觉引导的GPMLs,使用基于注意力的附加层来聚合视觉信息,同时保持其原始预训练模型的文本生成能力 。
结果表明,本文的方法在How2数据集上,比以前的最佳模型超过了 5.7 ROUGE-1 、5.3 ROUGE-2 和5.1 ROUGE-L 。此外,作者还进行了完整的消融研究,以分析各种模态融合方法 和融合位置 的有效性。
▊ 1. 论文和代码地址
Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization
论文地址:https://arxiv.org/abs/2109.02401
代码地址:https://github.com/HLTCHKUST/VG-GPLMs
▊ 2. Motivation
多模态摘要总结(Multimodal abstractive summarization,MAS)旨在利用来自多种模态的数据,生成一个简短、简洁、可读的文本摘要,让用户快速获取其基本信息。由于在线多媒体内容的普及和多模态数据的可用性,MAS已成为一个越来越受欢迎的研究领域。
如上图所示,MAS模型需要通过有效地利用两种模态的数据(视频、文本)来生成一个简明的摘要。因此,作者认为,利用强大的文本生成模型 和视觉-文本模态的有效组合 是构建良好的MAS模型的关键。
最近,基于Transformer的序列对序列大规模生成预训练语言模型(GPLMs)在文本生成任务上展现出了不错的性能表现。然而,利用和调整GPLMs以适应MAS仍是一个尚未被探索的研究方向。为了探索这个方向,首先需要解决两个问题:
1)首先,如何将视觉信息注入到仅文本的GPLM中 ,以便模型能够理解两种模态并允许跨模态交互,更重要的是,如何在不损害GPLMs原始文本生成能力的情况下进行这种注入操作?
2)其次,在GPLM中注入视觉信息的最佳位置在哪里 ?这需要进一步探索,因为在GPLMs的编码器和解码器中有许多子层,而一个次优位置可能会导致次优的性能。
为了填补研究空白,作者提出了一种简单且有效的方法来构建视觉引导的GPLMs来解决MAS任务。首先,对于第一个问题,作者在GPLMs中插入基于attention的附加层,以在不修改原始预训练模型结构的情况下合并视觉信息 。这样,所有预训练的模型权值都可以在微调期间使用,以保持其原始文本生成能力。
具体来说,作者尝试了两种类型的注意机制的文本视觉融合和交互:
1) Cross-modal Dot-product Attention;
2)Cross-modal Multi-head Attention。
此外,作者还研究了使用遗忘门(forget gate)和带attention机制的视觉Transformer编码器的影响。对于第二个问题,作者枚举了GPLMs中几乎所有注入附加层的可能位置 ,并在实验部分展示了详细的比较和分析。
在How2数据集上,本文的方法比以前的最佳模型超过了 5.7 ROUGE-1 、5.3 ROUGE-2 和 5.1 ROUGE-L 。
▊ 3. 方法
为了利用仅使用文本预训练的GPLMs的文本生成能力,并使其适应MAS任务,作者提出了视觉引导的GPLMs (VG GPLMs)。
上图为本文提出的VG GPLMLs的模型结构。
基于Transformer的Seq2Seq GPLMs(比如BERT,GPT)通常由一个编码器和解码器组成。上图的结构大致描述了这样的预训练结构(除了绿色框的部分)。
在GPLM中,输入文本首先被tokenize化,转换为一系列token embedding,其中为序列长度,为特征维数。为了保留位置信息,需要将位置编码
添加到中,形成输入特征:
如上图所示,该编码器由一个
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。