当前位置:   article > 正文

EMNLP2021 “Transformer+预训练”再下一城,港科大开源高效的"多模态摘要总结"网络...

多模态摘要生成

关注公众号,发现CV技术之美

 写在前面

多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识,能够从互联网上的大量多模态数据中提取摘要信息(即化繁为简 )。

另一方面,近年来,大规模的生成预训练语言模型(generative pretrained language models,GPLMs)已被证明在文本生成任务中是有效的。

然而,现有的MAS模型不能利用GPLMs强大的生成能力 。为了填补这一研究空白,在本文中,作者的目标是研究两个问题:

1)如何在不损害GPLMs生成能力的情况下注入视觉信息? 

2)在GPLMs中注入视觉信息的最佳位置在哪里? 

在本文中,作者提出了一种简单而有效的方法来构建视觉引导的GPMLs,使用基于注意力的附加层来聚合视觉信息,同时保持其原始预训练模型的文本生成能力

结果表明,本文的方法在How2数据集上,比以前的最佳模型超过了 5.7 ROUGE-15.3 ROUGE-25.1  ROUGE-L 。此外,作者还进行了完整的消融研究,以分析各种模态融合方法融合位置 的有效性。

 1. 论文和代码地址

aa719fff7b22aee623b6cc85379464c1.png

Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization

论文地址:https://arxiv.org/abs/2109.02401

代码地址:https://github.com/HLTCHKUST/VG-GPLMs

 2. Motivation

多模态摘要总结(Multimodal abstractive summarization,MAS)旨在利用来自多种模态的数据,生成一个简短、简洁、可读的文本摘要,让用户快速获取其基本信息。由于在线多媒体内容的普及和多模态数据的可用性,MAS已成为一个越来越受欢迎的研究领域。

e66e98f5ad7b76f7fd10bc30685e8706.png

如上图所示,MAS模型需要通过有效地利用两种模态的数据(视频、文本)来生成一个简明的摘要。因此,作者认为,利用强大的文本生成模型视觉-文本模态的有效组合 是构建良好的MAS模型的关键。

最近,基于Transformer的序列对序列大规模生成预训练语言模型(GPLMs)在文本生成任务上展现出了不错的性能表现。然而,利用和调整GPLMs以适应MAS仍是一个尚未被探索的研究方向。为了探索这个方向,首先需要解决两个问题:

1)首先,如何将视觉信息注入到仅文本的GPLM中 ,以便模型能够理解两种模态并允许跨模态交互,更重要的是,如何在不损害GPLMs原始文本生成能力的情况下进行这种注入操作?

2)其次,在GPLM中注入视觉信息的最佳位置在哪里 ?这需要进一步探索,因为在GPLMs的编码器和解码器中有许多子层,而一个次优位置可能会导致次优的性能。

为了填补研究空白,作者提出了一种简单且有效的方法来构建视觉引导的GPLMs来解决MAS任务。首先,对于第一个问题,作者在GPLMs中插入基于attention的附加层,以在不修改原始预训练模型结构的情况下合并视觉信息 。这样,所有预训练的模型权值都可以在微调期间使用,以保持其原始文本生成能力。

具体来说,作者尝试了两种类型的注意机制的文本视觉融合和交互:

1) Cross-modal Dot-product Attention;

2)Cross-modal Multi-head Attention。

此外,作者还研究了使用遗忘门(forget gate)和带attention机制的视觉Transformer编码器的影响。对于第二个问题,作者枚举了GPLMs中几乎所有注入附加层的可能位置 ,并在实验部分展示了详细的比较和分析。

在How2数据集上,本文的方法比以前的最佳模型超过了 5.7 ROUGE-15.3 ROUGE-2 和 5.1  ROUGE-L

 3. 方法

为了利用仅使用文本预训练的GPLMs的文本生成能力,并使其适应MAS任务,作者提出了视觉引导的GPLMs (VG GPLMs)。

d0f9f7c0238975a31ed295a4b53a3b7b.png

上图为本文提出的VG GPLMLs的模型结构。

3.1 Overview of GPLMs for Summarization

基于Transformer的Seq2Seq GPLMs(比如BERT,GPT)通常由一个编码器和解码器组成。上图的结构大致描述了这样的预训练结构(除了绿色框的部分)。

在GPLM中,输入文本首先被tokenize化,转换为一系列token embedding,其中为序列长度,为特征维数。为了保留位置信息,需要将位置编码

添加到中,形成输入特征:

f6bf396772c8d4de0e584ba55160053d.png

如上图所示,该编码器由一个

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/588656
推荐阅读
相关标签