当前位置:   article > 正文

多模态虚假新闻检测论文分享(1)MVAE: Multimodal Variational Autoencoder for Fake News Detection

mvae: multimodal variational autoencoder for fake news detection

WWW19
CCF A 类国际会议

ABSTRACT

近年来,假新闻和错误信息给我们的生活带来了破坏性和不利影响。鉴于微博网络作为大多数人的新闻来源的重要性,假新闻现在传播得更快,其影响比以往任何时候都更深远。这使得假新闻的检测成为一项极其重要的挑战。假新闻文章就像真正的新闻文章一样,利用多媒体内容来操纵用户观点,但传播错误信息。目前用于检测假新闻的方法的一个缺点是它们无法学习多模态(文本+视觉)信息的共享表示。 我们提出了一种端到端的网络,即多模态变分自编码器(MVAE),该网络使用双模态变分自编码器与二元分类器结合,用于假新闻检测任务。该模型由三个主要组件组成:编码器、解码器和假新闻检测模块。变分自编码器能够通过优化观测数据的边缘似然性的界限来学习概率潜在变量模型。 然后,假新闻检测器利用从双模态变分自编码器中获得的多模态表示来将帖子分类为假新闻或真新闻。我们在两个从流行微博网站:微博和推特收集的标准假新闻数据集上进行了大量实验。实验结果表明,在两个数据集上,我们的模型平均比最先进的方法高出约6%的准确率和约5%的F1分数。

1 INTRODUCTION

近年来,新闻消费方式的变革使假新闻和错误信息成为讨论的前沿问题。随着每天有成千上万的新闻文章在社交媒体网络上传播,每一篇都没有经过信誉或验证检查,已经形成了一个由错误信息(无意中分享的错误信息)和虚假信息(故意创建和分享已知为虚假的信息)推动的生态系统。社交媒体网络使新闻文章从传统的纯文本新闻发展到带有图片和视频的新闻,这可以提供更好的讲故事体验,并有能力吸引更多的读者。最近的假新闻文章利用这种视觉上下文辅助新闻的变化。假新闻文章现在可以包含误导、不相关和伪造的图像来误导读者。点对点网络(主要是社交媒体网络)允许假新闻(宣传)针对更可能接受和分享特定消息的用户。近年来,假新闻因对公共事件产生广泛的负面影响而受到关注。一个重要的转折点是2016年美国总统大选。据信,在选举前的最后三个月内,有利于两位候选人中任何一位的假新闻在Facebook上被接受和分享了超过3700万次[1]。这使得检测假新闻的任务变得至关重要。
Figure 1: Fake News examples from the Twitter dataset
Figure 1: Fake News examples from the Twitter dataset

图1显示了来自Twitter数据集的三个假新闻示例。每条推文都有一定的文本内容和与之相关的图像。对于左边的推文,图像和文本都表明它可能是假新闻。在右边的推文中,图像没有提供重要的信息,但文本表明它可能是假新闻。对于中间的推文,从文本上很难得出结论,但经过篡改的图像表明它可能是假新闻。这个例子反映了这样一个假设,即视觉和文本信息的配对可以为假新闻检测提供更好的洞察力。

在概念层面,检测假新闻的任务已经从错误信息发展到谣言等多种标签。我们研究的目标是检测伪造且可证实为假的新闻内容。谣言和假新闻检测技术从传统的学习方法到深度学习模型都有涉及。最初的方法[4]试图仅使用从新闻报道的文本内容中提取的语言特征来检测假新闻。Ma等人[14]探索了使用深度神经网络捕获时间语言特征来表示推文的可能性,随后Chen等人[5]在此基础上引入了注意力机制到RNNs中。

深度学习领域最近的假新闻检测工作[26]由于在提取相关特征方面的能力得到了提高,因此在性能上超过了传统方法。Jin等人[9]结合了视觉、文本和社会上下文特征,使用注意力机制对假新闻进行预测。Wang等人[26]使用额外的事件鉴别器来学习所有事件共享的通用特征,目标是消除不可转移的事件特定特征,并声称他们可以更好地处理新颖和新出现的事件。现有模型的一个缺点是它们没有任何明确的目标函数来发现跨模态之间的相关性。

我们的工作受到自动编码器思想的启发,试图在多模态环境中学习共享表示。Kingma等人[12]提出,潜在变量模型是生成复杂分布的强大方法,并提出了变分自编码器(VAE)的概念。VAE可以通过优化观测数据的边缘似然性的边界来学习概率潜在变量模型。为了克服当前模型的局限性,我们提出了一种多模态变分自编码器,能够学习共享(视觉+文本)表示,并训练发现推特中跨模态的相关性。然后,将VAE与分类器结合以检测假新闻。

总结来说,我们工作的贡献如下:
• 我们提出了一种仅使用帖子内容(即文本和附加图像)对社交媒体帖子进行分类的新方法。
• 所提出的MVAE模型使用多模态变分自编码器与假新闻检测器联合训练,以检测帖子是否为假。
• 我们在两个现实世界的数据集上广泛评估了我们的模型性能。结果表明,我们提出的模型能够学习更好的多模态特征,并优于最新的多模态假新闻检测模型。
• 我们展示了所提出的模型能够发现跨模态之间的相关性,从而得出更好的多模态共享表示。

本文的其余部分组织如下:在第2节中,我们讨论了有关假新闻检测和自动编码器基础知识的先前工作。在第3节中,我们介绍了我们提出的模型及其不同组件。在第4节中,我们描述了数据集、基准,并提供了我们提出模型的实现细节。结果和分析在第5节中显示,我们在第6节中简要总结。

2 RELATED WORK

假新闻检测的任务类似于从垃圾邮件检测[29]到谣言检测[24]再到讽刺检测[20]等各种其他有趣的挑战。由于每个人可能对这些相关概念有自己直观的定义,因此每篇论文都采用了自己的定义。遵循以前的工作[21,22],我们指定本研究的目标是检测伪造且可证实为假的新闻内容。

一些早期的研究试图基于从新闻故事的文本中提取的语言学特征来检测假新闻。Castillo等人[4]使用了一组语言学特征,如特殊字符、情感积极/消极词汇、表情符号等来检测假新闻。Popat等人[19]使用立场和语言风格特征,如断言性动词、话语标记等来评估一个声明的可信度。Feng等人[6]使用无上下文语法规则来识别欺骗行为。Ma等人[14]是第一批探索使用深度神经网络表示推文的可能性的人,通过捕捉时间语言特征。Chen等人[5]将注意力机制引入循环神经网络(RNNs)中,以特定的焦点汇集不同的时间语言特征。

用户与推文之间的交互所产生的社会联系为帖子提供了丰富的社会背景。Wu等人[28]推断社交媒体用户个人资料的嵌入,并在传播路径上使用LSTM网络对假新闻进行分类。Liu等人[13]将新闻故事的传播路径建模为多元时间序列,并通过结合RNNs和CNNs的传播路径分类来检测假新闻。Ma等人[15]使用基于树结构神经网络的递归神经模型学习推文的表示。Jin等人[8]使用了手工制作的社会背景特征,如关注者数量、转发次数等。大多数社会背景特征是未结构化的,并且通常需要大量的手工劳动来收集。此外,它们无法为新出现的事件提供足够的信息。

最近的研究表明,视觉特征(图像)在检测假新闻方面发挥着非常重要的作用[27]。然而,对社交媒体上多媒体内容可信度的验证受到的审查较少。在[18]中研究了附加图像的基本特征的提取。然而,这些特征仍然是手工制作的,很难代表图像内容的复杂分布。

深度神经网络在学习图像和文本表示方面取得了巨大的成功。它们已成功应用于各种任务,包括图像标注[10,25]、视觉问答[2]和假新闻检测[8,26]。Jin等人[8]提出了一个模型,该模型提取视觉、文本和社会背景特征,并通过注意力机制将它们融合。Wang等人[26]使用对抗网络以及多模态特征提取器学习事件不变特征。然而,这两种模型都没有明确的目标来发现不同模态之间的相关性。

为了克服现有多模态假新闻检测器的局限性,我们提出了一种多模态变分自编码器(MVAE),该编码器学习文本和图像两种模态的共享表示。多模态变分自编码器被训练为从学习的共享表示中重建两种模态,从而发现模态之间的相关性。我们联合训练多模态变分自编码器和分类器以检测假新闻。 此外,与我们的基准相比,我们使用更少的信息来检测假新闻,即我们不使用任何与社会或事件相关的信息。

3 THE PROPOSED MVAE MODEL

3.1 MVAE Overview

我们提出了一种新型的深度多模态变分自编码器(MVAE)来解决假新闻检测的问题。MVAE背后的基本思想是学习推特内容两种模态的统一表示。所提出的MVAE的总体架构如图2所示。它有三个主要组成部分:
• 编码器:它将文本和图像的信息编码为潜在向量。
• 解码器:它从潜在向量中重建原始图像和文本。
• 假新闻检测器:它使用学习到的共享表示(潜在向量)来预测新闻是否为假。

在这里插入图片描述
Figure 2: Network architecture of the proposed Multimodal Variational Autoencoder (MVAE). It has three components: Encoder, Decoder and Fake News Detector.

3.2 Encoder

编码器的输入是帖子的文本以及附加的图像,它输出从两种模态学习到的特征的共享表示。编码器可以分为两个子组件:文本编码器和视觉编码器。

3.2.1 Textual Encoder.

文本编码器的输入是帖子中单词的顺序列表,T=[T1 T2 … Tn],其中n是文本中的单词数。文本中的每个单词Ti∈T都表示为一个词嵌入向量。每个单词的嵌入向量是通过在给定数据集上以无监督的方式预先训练的深度网络获得的。

为了从文本内容中提取特征,我们使用了带有长短时记忆(LSTM)单元的循环神经网络(RNN)。RNN是一类利用序列信息并通过其中间层维护历史的人工神经网络。普通的RNN具有一个内部状态,其每个时间步的输出可以表示为前一个时间步的函数。然而,已经发现普通的RNN存在梯度消失和爆炸的问题[7,17]。这导致模型学习效率低下,无法学习相隔几个步骤的单词之间的依赖关系。为了克服这个问题,LSTM通过使用记忆单元和有效的门控机制扩展了基本的RNN,从而在长时间段内存储信息。

让[h1 h2 … hn]表示LSTM的状态,其状态更新满足以下方程:
在这里插入图片描述
在上述公式中,σ 代表逻辑Sigmoid函数,ft、it、ot 分别代表遗忘门、输入门和输出门,xt 表示输入,ht 表示在时间t时的隐藏状态。遗忘门、输入门和输出门控制着序列中信息的流动。W、U 是代表权重的矩阵,b 是与连接相关的偏置项。

我们采用堆叠的双向LSTM单元来提取文本特征。LSTM的最终隐藏状态是通过拼接前向和后向状态获得的。最后,我们将LSTM的输出通过一个全连接层(enc text fc)传递,以获取文本特征。
在这里插入图片描述
其中,Rlstm 是 LSTM 的输出,Wtf 是全连接层的权重矩阵,ϕ 是所使用的激活函数。

3.2.2 Visual Encoder.

视觉编码器的输入是与帖子一起附带的图像V。如各种视觉理解问题中所见,使用卷积神经网络(CNN)在大量数据上训练的图像描述符已被证明非常有效。网络中较后层对空间布局和对象语义的隐式学习为这些特征的成功做出了贡献。

我们采用了在ImageNet数据库上训练的VGG-19架构的预训练网络,并使用全连接层(FC7)的输出。在联合训练过程中,我们冻结了VGG网络的参数,以避免参数爆炸。最后,我们将VGG输出通过多个全连接层(enc vis fc*)传递,以获得与文本相同大小的图像表示。
在这里插入图片描述
在这里,Rvgg 是从VGG-19获得的特征表示,Wvf 是全连接层的权重矩阵,ϕ 是所使用的激活函数。

接着,将文本特征表示 RT 和视觉特征表示 RV 拼接起来,并通过一个全连接层形成共享表示。然后,我们从共享表示中获得两个向量µ和σ。它们可以分别被视为共享表示分布的均值和方差。此外,从先前的分布(例如,高斯分布)中采样一个随机变量 ϵ。最终的重参数化多模态表示用 Rm 表示,可以按照以下方式计算:
在这里插入图片描述
我们将编码器表示为 Genc(m, θenc),其中 θenc 表示编码器中要学习的所有参数,m 表示多媒体帖子的集合。因此,对于多媒体帖子 m,编码器的输出是多模态表示:
在这里插入图片描述

3.3 Decoder

解码器的架构与编码器相似,但方向相反。解码器的目标是从采样的多模态表示中重构数据。与编码器一样,解码器也可以分为两个子组件:文本解码器和视觉解码器。

3.3.1 Textual Decoder.

文本解码器将多模态表示作为输入,并重构文本中的单词。多模态表示通过一个全连接层(dec_text_fc)传递,以创建双向LSTM的输入。然后,我们使用了与文本编码器子网络中类似的堆叠双向LSTM单元。最后,我们将LSTM输出通过一个带有softmax激活的时间分布全连接层传递,以获取该时间步中每个单词的概率。

3.3.2 Visual Decoder.

视觉解码器的目标是从多模态表示中重构VGG-19特征。视觉解码器子网络与视觉编码器的对应子网络相反。多模态表示通过多个全连接层(dec_vis_fc*)传递,以重构VGG-19特征。

我们将解码器表示为Gdec(Rm, θdec),其中θdec表示解码器中的所有参数。因此,对于多媒体帖子m,解码器的输出是文本中每个位置每个单词的概率矩阵~tm,以及图像的重构VGG-19特征^rvggm。
在这里插入图片描述
VAE(变分自编码器)模型通过优化重构损失和KL散度损失之和来进行训练。因此,我们采用类别交叉熵损失来重构文本,采用均方误差来重构图像特征。两个概率分布之间的KL散度简单地衡量了它们之间的偏离程度。在这里最小化KL散度意味着优化概率分布参数(µ和σ),使其尽可能接近目标分布(正态分布)。这些参数可以按照以下方式计算:在这里插入图片描述

其中,M 表示多媒体帖子的集合,nv 表示 VGG-19 特征的维度,nt 表示文本中的单词数量,nm 表示多模态特征的维度,C 表示词汇量的大小。我们的目标是找到最优的参数θ ˆ enc和 θ ˆ dec来最小化 VAE(变分自编码器)的损失。这可以表示为以下形式:
在这里插入图片描述

3.4 Fake News Detector

假新闻检测器以多模态表示作为输入,并旨在将帖子分类为假新闻或真实新闻。它由多个全连接层以及相应的激活函数组成。我们将假新闻检测器表示为Gfnd(Rm, θfnd),其中θfnd表示假新闻检测器中的所有参数。对于多媒体帖子m,假新闻检测器的输出是该帖子为假新闻的概率。
在这里插入图片描述
我们可以将 ˆym 的值视为标签,其中 1 表示多媒体帖子 m 是假新闻,0 则表示不是。为了将值约束在 0 和 1 之间,我们使用了 Sigmoid Logistic 函数。因此,为了计算分类损失,我们采用了交叉熵损失函数,如下所示:
在这里插入图片描述
其中,M 表示多媒体帖子的集合,Y 表示真实标签的集合。我们通过寻找最优参数 θ ˆ f nd和θ ˆ enc来最小化分类损失,这可以表示如下:
在这里插入图片描述

3.5 Putting it all together

提出的 MVAE 模型的完整架构如图 2 所示。编码器的输出被送入解码器和假新闻检测器。解码器的目标是重构数据,而假新闻检测器的目标是将帖子分类为假新闻或真实新闻。我们联合训练 VAE 和假新闻检测器。因此,最终的损失可以写成如下形式:
在这里插入图片描述
在最终的损失函数中,λs 可以用来平衡各个损失项。在本文中,我们简单地将所有的 λs 设置为 1。通过最小化最终的损失函数,我们可以计算出最优参数,如下所示:
在这里插入图片描述

4 EXPERIMENTS

在本节中,我们首先描述实验中使用的两个社交媒体数据集。然后,我们将简要地讨论最先进的假新闻检测方法以及一些最先进的语言-视觉模型。

4.1 Datasets

考虑到结构化多媒体数据的稀疏可用性,我们使用两个标准数据集来评估我们的假新闻检测架构。这两个数据集包括从推特和微博收集的真实社交媒体信息。据我们所知,这些是唯一可用的具有配对图像和文本信息的数据集。

4.1.1 Twitter Dataset.

作为MediaEval [3]的一部分,推特数据集被发布,用于验证多媒体使用任务。该任务的目的是检测社交媒体上的虚假多媒体内容。该数据集由推文(发布在推特上的短信息)组成,每条推文都有文本内容、图像/视频和社会背景信息与之相关联。该数据集有大约17000条独特的推文,跨越了不同的事件。数据集被分为两部分:开发集(9000条假新闻推文,6000条真实新闻推文)和测试集(2000条推文)。它们的分割方式是,这些推文没有重叠的事件。鉴于我们关注图像和文本信息,我们过滤掉所有有视频的推文。我们使用了进行训练的开发集和进行测试的测试集,以保持相同的数据分割方案作为基准。

4.1.2 Weibo Dataset.

在[8]中用于假新闻检测任务的微博数据集由从中国权威新闻来源新华社和中国微博网站微博收集的数据组成。从微博上收集到的假消息从2012年5月持续到2016年1月,并得到了微博官方谣言揭露系统的证实。该系统鼓励普通用户在微博上报告可疑的推文,然后由一个信誉良好的用户组成的委员会进行检查,该委员会将可疑的推文分类为虚假的或真实的。根据[14,27]之前的工作,该系统也是收集谣言新闻的权威来源。这些非谣言的推文是经过新华社核实的。数据集的预处理是使用一种类似于[8]的方法来完成的。初步的步骤包括去除重复的图像(使用局部敏感的散列)和低质量的图像,以确保整个数据集的同质性。然后,该数据集被分成训练集和测试集,其推文比例近似为4:1,如Jin等人的[8]所述。

4.2 Experimental Settings

对于单词嵌入,我们对单词[16]使用分布式Word2Vec表示。对于Twitter数据集,我们有非英文的帖子,所以我们将它们翻译成英文,以保持数据的一致性。我们遵循Twitter数据集的标准文本预处理。对于微博数据集,文本是中文的。中文文字之间没有空格。我们使用斯坦福Word符号将中文文本标记为单词。我们在无监督的训练数据集上对Word2Vec模型进行预训练,维数大小为32。

对于视觉特征,我们使用在ImageNet集[23]上预先训练过的19层VGGNet的第二层到最后一层的输出。从VGG-19中得到的特征尺寸为4096。我们不微调VGG的权值,即VGG网络的权值被冻结。

该文本编码器由隐藏层的维数大小为32的lstm组成。在文本编码器中使用的全连接图层的大小为32。视觉编码器由两个大小为1024和32的完全连接的层组成。解码器由与编码器尺寸相同的层组成。假新闻探测器有两个完全连接的层,大小分别为64和32。

我们在整个网络的训练中使用了128个批量实例。该模型经过300个epochs的训练,学习速率为10−5,并提前停下来报告结果。我们使用双曲正切函数作为非线性激活函数。为了防止过拟合,我们对模型的权值使用了L2-正则化器。我们实验了权重惩罚[0、0.05、0.1、0.3、0.5],编码器和解码器设置为0.05,假新闻检测器设置为0.3。为了为我们的模型寻找最优参数,我们使用Adam [11]作为优化器。我们将该代码公开使用。

4.3 Baselines

为了验证所提出的多模态变分自编码器的性能,我们将其与两类基线模型进行了比较:单模态模型和多模态模型。

4.3.1 Single Modality Models.

MVAE利用来自视觉和文本数据的信息来识别潜在的假新闻。与这种多模态方法相比,我们还实验了如下所描述的两个单模态模型。

Textual:这个模型只使用帖子中出现的文本信息来将它们分类为假与否。每个单词都用一个32维的向量来表示。单词嵌入是根据文章的文本内容进行训练的。然后将单个帖子输入一个Bi-LSTM来提取文本特征,然后将FT输入一个32维的全连接层,其softmax函数与负责做出最终预测的Bi-LSTM相结合。

Visual:视觉模型只使用帖子中的图片来将它们分类为假与否。图像被输入到一个预先训练好的VGG-19网络中,以提取视觉特征FV。与文本模型相似,然后将视觉特征FV输入一个32维全连接层进行预测。

4.3.2 Multimodal Models.

多模态方法利用来自多种模态的信息来进行假新闻分类。

VQA [2]:视觉问题回答旨在回答关于给定图像的问题。我们将最初为多类分类任务而设计的Visual QA模型用于我们的二值分类任务。这是通过用一个二进制类层替换最终的多类层来实现的。我们使用一个单层LSTM,隐藏单元数设置为32。

Neural Talk [25]:Vinyals等人[25]在图像字幕领域的工作,提出使用深度循环框架生成描述图像的自然语言句子。根据与他们相似的结构,我们通过平均每个时间步长的RNN输出作为推特中图像和文本的联合表示来获得潜在表示。然后将这些表示输入一个完全连接的层,然后是一个熵损失层来进行预测。

att-RNN [8]:att-RNN使用注意机制来结合文本、视觉和社会背景特征。在这个端到端网络中,图像特征被合并到文本和社会上下文的联合表示中,使用LSTM网络获得。从LSTM输出的神经注意力是融合视觉特征的一个组成部分。为了进行公平的比较,在我们的实验中,我们删除了处理社会背景信息的部分。

EANN [26]:事件对抗神经网络(EANN)由三个主要组成部分组成:多模态特征提取器、假新闻检测器和事件鉴别器。多模态特征提取器从帖子中提取文本和视觉特征。它与假新闻检测器一起学习对假新闻进行检测的判别表示。事件鉴别器负责删除任何特定于事件的特征。它也可以仅使用多模态特征提取器和假新闻检测器这两个组件来检测假新闻。因此,为了进行公平的比较,在我们的实验中,我们使用了一个不包括事件鉴别器的EANN的变体。

请注意,不可能与[13,15]中提出的方法进行公平的比较,因为它们使用了像推文传播数据这样的附加信息。此外,这些方法并不是为多模态数据集开发的。我们在表1中报告了所有基线的准确性、召回率、精确率和f1分数以及我们提出的模型。

Table 1: Performance of MVAE vs other methods on two different datasets
在这里插入图片描述

5 RESULTS AND ANALYSIS

表1显示了基线的结果以及我们提出的对这两个数据集的方法。我们报告了我们的假新闻检测器的准确性,以及我们的方法对假新闻和真实新闻的精度、召回率和F1分数。我们可以清楚地看到,我们提出的方法比基线要好得多。

在Twitter数据集上,在单一模态模型中,视觉模型的性能优于文本模型。这可以归因于,与文本特征相比,在VGG-19的帮助下学习到的图像特征具有更多可共享的新闻分类模式。虽然视觉特征比文本特征表现更好,但单一模态模型比多模态模型表现更差。

在多模态模型中,att-RNN击败了EANN,这说明我们,注意机制可以通过考虑与文本相关的图像部分来帮助提高模型的性能。我们提出的模型MVAE大大优于基线模型,将准确率从66.4%提高到74.5%,并将F1分数从66%提高到73%。

在微博数据集上,我们在结果中也看到了类似的趋势。文本模型在单一模态模型中击败了视觉模型。在多模态方法中,EANN和att-RNN的表现优于Neural Talk和VQA。MVAE优于所有基线,在准确性方面从78.2%提高到82.4%,与之前的最佳基线相比,F1分数增加了5%。这验证了我们提出的MVAE方法在检测社交媒体上的假新闻方面的有效性。

6 CONCLUSIONS

在本研究中,我们探索了多模态假新闻检测的任务。克服了当前模型的局限性,我们解决了学习推文模式之间的相关性的挑战,并提出了一个多模态变分自编码器,它学习共享(视觉+文本)表示,以帮助假新闻检测。我们的模型由三个主要组件组成,一个编码器,一个解码器和一个假新闻检测器。我们提出的模型,MVAE是通过联合学习编码器、解码器和假新闻检测器来训练的。我们提出的架构在两个真实的数据集上评估了架构的性能。MVAE模型的性能优于目前最先进的架构。在未来,我们计划利用推文传播数据和用户特征来扩展MVAE。

原文链接:https://doi.org/10.1145/3308558.3313552
原文代码:https://github.com/dhruvkhattar/MVAE

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号