当前位置:   article > 正文

COLING'22 | 不同数据,不同模态!用于社交媒体多模态信息抽取的有效数据分割策略...

如何让多模态提取到的特征更有利于语义分割

每天给你送来NLP技术干货!


来自:知识工场

信息抽取任务,例如命名实体识别、关系抽取以及情感分析,是挖掘社交媒体信息的重要步骤(任务)。多模态信息抽取任务在传统的信息抽取任务基础上额外引入了图像,可以为文本补充语义信息来消除歧义,近些年受到人们的广泛关注。

然而,理解社交媒体上的信息并不总是需要图像。有时仅仅使用文本信息便可以正确地抽取出信息,而当与文本附随的图像与文本本身不相关时,图像信息便会损害到模型的表现。如下图所示,图中左半部分为命名实体识别任务的示例,当只有文本的情况下,预训练模型(BERT等)通过预训练任务学习到的知识可以将“Nasa”的类型预测为ORG(组织),而如果模型考虑其附随的“不匹配”的图像,模型将会受图中“人物”的影响将“Nasa”预测为PER(人)。同理,图中右半部分的关系抽取任务在只有文本的情况下可以通过文本中的marriage判断出“Angel”和“Jesenia”的关系为couple,而受图片的影响,可能会导致模型将二者的关系预测为colleague。

600c8a1efb843211a9ec436b2512f588.png

因此,本文认为在多模态关系抽取任务中不同模态的数据应该考虑不同的模态信息,一些数据更加适合多模态(文本和图像)模型,而其它的数据则更适合单模态(文本)模型。为了判断数据更适合哪个模态,本文提出了一种数据鉴别器来判断数据适合的模态,由于缺少有关的监督数据,本文使用强化学习来训练该数据鉴别器。

本文研究成果已被COLING2022接收。

e22b2d65550818d5615f0b3f267a70d9.png

一、整体框架

本文框架如下图所示,主要由data discriminator、multimodal model、unimodal model以及reward function组成。其中multimodal model以及unimodal model可以是对应的任何已经存在的信息抽取模型。训练流程如下所示:

1. 给定完整的训练集  ,本文按照一定比例将其随机切分为  以及  。

2. 本文使用  训练multimodal model以及unimodal model,并冻结住它们的参数。

3. 本文使用强化学习在  上训练data discriminator,  中的每个数据都会通过data discriminator判断出是更适合于多模态还是单模态。最终,  被分为Multimodal Set   以及Unimodal Set   。本文将multimodal model以及unimodal model在两个集合上的表现差距作为奖励用于训练data discriminator的参数。

e2279abf87930edf280ef7c5985cc4ea.png

二、主要部分

PART 01

Data Discriminator

Data discriminator用于判断一个数据更适合使用多模态模型还是单模态模型进行预测。如框架图右侧所示,其主要由CLIP和MLP组成。其中,CLIP是一个预训练多模态模型,由CLIPTextModel、CLIPVisionMod-el以及Projection Layer三部分组成。

CLIPTextModel对输入的多模态数据的文本信息进行编码得到文本表示,CLIPVisionModel对输入的多模态数据的图像信息进行编码得到图像的表示,接着文本表示和图像表示通过同一个投影层即Projection Layer得到相同空间下同纬度的表示,分别为  以及  。

然后,如下公式所示,本文将  和  进行逐元素相乘后输入到MLP中得到数据更适合多模态模型预测的概率(即更不适合单模态模型预测的概率):

如框架图右侧所示,在计算概率后,还需要使用sampling policy来通过概率判断数据是交由多模态模型预测还是单模态模型预测。在训练阶段,为了鼓励data discriminator进行探索,本文使用Bernoulli sampling,即依概率采样,如当概率为0.8时,将有0.8的概率选择交由多模态模型进行预测,有0.2的概率交由单模态模型进行预测。在预测阶段,本文将概率大于0.5的数据交由多模态模型进行预测,反之交由单模态模型进行预测。

PART 02

Reward Function

由于缺少明确的监督数据,我们使用强化学习的方法来训练data discriminator。强化学习的核心便是如何设计一个好的奖励,其不仅可以用来评估data discriminator选择数据行为的好坏,还可以作为信号调整data discriminator的参数

直觉上,multimodal model在Multimodal Set   的表现  要优于unimodal model在  的表现  ,并且unimodal model在Unimodal Set   的表现  要优于multimodal model在  的表现  。我们使用两个模型在不同集合表现的差异作为奖励R:

其中,  为超参数。

补充:

Q:为什么要将数据集  切分为  以及  ?

A:通过奖励R的计算公式可以看到,本文需要计算multimodal model以及unimodal model在  和  的表现,其中multimodal model以及unimodal model是在  上训练得到的。如果不将数据集  切分为  以及  ,即  与  为同一个数据集,那么由于multimodal model以及unimodal model在  上训练会导致过拟合,二者在  以及  上都会有着极高的表现分数(例如准确率都为0.99)。因此,需要将数据集进行切分,防止模型过拟合导致无法计算表现差异的情况。

PART 03

Training Algorithm

最后,本文通过下图所示算法流程来介绍如何训练data discriminator。

3f65aa01c2f9dded4f5faf1e744d17e7.png

本文首先将训练集  按照一定比例将其随机切分为  以及  ,并使用  训练multimodal model和unimodal model,并冻结它们的参数。

接着,本文初始化data discriminator的参数,并在每一轮迭代中从  随机抽取batch大小为  的数据记为  然后使用data discriminator预测  中每个数据更适合多模态模型的概率,并基于概率使用Bernoulli sampling将  分为多模态集合  以及单模态集合  。

最后,本文按照如下公式更新data discriminator的参数:

其中,  为学习率,  为基于data discriminator的选择向量  被选中的概率,其中  为指示变量,1表示data discriminator最终将数据放入了多模态集合  ,0表示放入了单模态集合  。

三、实 验

PART 01

评估方法

本文首先将multimodal model以及unimodal model在完整的训练集上进行训练,然后评估不同模型在三个测试集上的表现:(1)Unimodal test set;(2)Multimodal test set;(3)Full test set。其中Full test set是原始的测试集,将其输入到训练好的data discriminator后,会得到更适合单模态模型预测的数据集合Unimodal test set以及更适合多模态模型预测的数据集和Multimodal test set。本文将多模态模型在Multimodal test set的预测结果与单模态模型在Unimodal test set的预测结果结合起来,作为本文方法的预测结果。

PART 02

主要结果

本文首先对比了在多模态关系抽取任务上不同模型在不同测试集上的表现。如下图所示,单模态关系抽取模型MTB在单模态测试集Unimodal Test Set上表现最好,在多模态测试集Multimodal Test Set上表现最差,并且多模态关系抽取模型MEGA在Multimoda Test Set上表现最好,在Unimodal Test Set上表现最差。这说明本文训练的data discriminator能够有效地将数据分开,找到数据更适合的模态。并且,本文的方法在Full Test Set上的表现(F1)高出了MEGA 1.69个点,表明了本文提出的方法的有效性。

bb8d1c55b623bd9db62607b960779e8f.png

接着,本文在多模态命名实体识别任务上使用了两个不同的多模态模型,分别为UMT-BERT-CRF以及MAF,并且通过下图的实验结果能够得到与多模态关系抽取任务相同的结论,同时也表明了本文提出的方法可以使用任何已经存在的方法作为多模态模型。

6a2a2a0b2fa3dd663f1a00cc658a41f9.png

085b527148a8a2295cf08993ec3e54d2.png

PART 03

样例分析

为了更直观地展示data discriminator的有效性,本文在命名实体识别任务上进行了样例分析,如下图所示,(a)和(b)为data discriminator输出概率最低的两个样例,即最不适合多模态模型的两个样例,(c)和(d)为data discriminator输出概率最高的两个样例,(e)和(f)为data discriminator输出概率中等的两个样例。可以看出,(a)和(b)中,实体均未在图中出现,在(c)和(d)中,为了判断“Harry Potter and the Philosopher’s Stone”是一个整体,还是会分为“Harry Potter”和“Philosopher’s Stone”两个部分,以及“R.Shemiste”是否为一个人,均需要图像信息的帮助。在(e)和(f)中,文本没有实体并且图像由简单的背景和文字构成,因此使用多模态模型和单模态模型均是适合的。

0f3da54a616b4bd910f0c08d5d7eb42e.png

责任编辑:郭放  图文编辑:王文

a6a6fa41c25ba660b97bc148b84f30b2.gif


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/343194
推荐阅读
相关标签