赞
踩
最近,对假新闻的有效检测引起了人们的极大关注。目前的研究在预测假新闻方面做出了重大贡献,但对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。重视这种相似性有助于识别虚假新闻报道,例如,试图使用不相关的图片来吸引读者的注意力。在这项工作中,我们提出了一种相似感知假新闻检测方法(SAFE),该方法研究新闻文章的多模态(文本和视觉)信息。首先,采用神经网络分别提取文本特征和视觉特征进行新闻表示。我们进一步研究了跨模态提取的特征之间的关系。这种新闻文本和视觉信息的表征以及它们之间的关系被共同学习并用于预测假新闻。所提出的方法有助于基于文本、图像或“不匹配”来识别新闻文章的虚假。我们在大规模的真实数据上进行了大量的实验,证明了所提出方法的有效性。
现有的假新闻检测方法要么只考虑文本信息,要么考虑社会上下文语境,要么将两种类型的数据结合起来,忽略它们之间的关系(相似度)。理解这种关系(相似度)对于预测假新闻的价值是双重的。为了吸引公众的注意,一些假新闻(或低可信度的新闻)喜欢在新闻文本中使用戏剧性的、幽默的(滑稽的)、诱人的图像,这些图像的内容与实际内容相差甚远。此外,当一篇假新闻文章用虚构的场景或陈述讲述一个故事时,很难找到与这些虚构相匹配的相关和未经处理的图像;因此,当创造者使用未经处理的图像来支持非事实的场景或陈述时,虚假新闻的文本信息和视觉信息之间存在“差距”。
本文所提方法由三个模块组成,分别进行(1)多模态(文本和视觉)特征提取;(2)模态内(或者说模态无关)假新闻预测;(3)跨模态相似性提取。对于每篇新闻文章,我们首先采用神经网络自动获取其文本信息和视觉信息的潜在表示,并在此基础上定义它们之间的相似度度量。然后,联合学习具有相似度的新闻文本信息和视觉信息的这种表示,并将其用于预测假新闻。
本文旨在识别新闻文章在文本或图像上的虚假,或文本和图像之间的“不匹配”。
本文贡献点
主要介绍假新闻检测中基于内容和基于社会语境(上下文)的相关研究
问题描述:
给定一篇由文本信息T和视觉信息V组成的新闻文章A = {T,V},我们将t , v∈Rd作为对应的表示,其中t = Mt(T,θt),v = Mv(V,θv)。设s = Ms(t, v)表示t与v的相似度,其中s∈[0,1]。目标是通过调查其文本信息、视觉信息及其关系来预测A是假新闻(y = 1)还是真新闻(y = 0),即确定
,其中θ是要学习的参数。
模型由三个模块组成:(I)多模态特征提取,(II)模态独立的假新闻预测和(III)跨模态相似性提取,如下图所示:
SAFE的多模态特征提取模块旨在分别表示给定新闻文章在d维空间中的(I)文本信息和(II)视觉信息。
以Text-CNN为主,额外加一个全连接层,如图2所示。给定一个包含n个单词的内容,首先将每个单词嵌入为xl t∈Rk, l = 1,2,···,n。卷积层通过wt从一系列局部输入
生成特征映射,记为
。如图2所示,每个局部输入是一组h个连续词。数学上,
其中wt, xi:(i+h−1)t∈Rhk, bt∈R为偏置,⊕为拼接,σ为ReLU函数。wt和bt都是TextCNN中要学习的参数。然后,对得到的特征映射进行最大池化操作进行降维,即
。最后,得到新闻文本表示:
,其中
, g为选择的不同窗口大小的个数;
, bt∈Rd是待学习的参数。
为获取图像特征,同样使用带有额外全连接层的Text-CNN,但先使用预训练的image2sentence model2处理新闻内容中的视觉信息。新闻视觉信息可表示为
,Wv,bv都是需要学习的参数。
表示带有参数wv和bv的神经网络的输出
为了在预测假新闻时正确地表示新闻文本和视觉信息,旨在将提取的新闻内容的文本和视觉特征正确地映射到它们是假的可能性,并进一步映射到它们的实际标签。在数学上表示为:
其中,1 = [1, 0]T,Wp ∈ R2×2d, bp ∈ R2
使用交叉熵作为损失函数:
其中,θp = {Wp, bp}, θt = {Wt, bt, wt, bt}, θv = {Wv, bv, wv, bv}
当试图正确地将新闻文章的多模态特征映射到它们的标签时,属于两种不同模态的特征被分开考虑——将它们连接起来,而不探索它们之间的关系(见3.2节)。然而,除此之外,新闻文章的虚假也可以通过评估文本信息与视觉信息的相关性来检测;假新闻创作者有时会主动使用不相关的图片进行虚假陈述,以吸引读者的注意,或者由于难以找到支持的非操纵图像而被动使用它们(示例参见第5节的案例研究)。与提供相关文字和视觉信息的新闻文章相比,那些陈述和图片不一致的新闻文章更有可能是假的。本文通过稍微修改余弦相似度来定义新闻文本与视觉信息之间的相关性:
这样,Ms(t, v)是正的,并且Ms(t, v)∈[0,1];0表示t和v相差甚远,1表示t和v完全相同。用交叉熵定义损失:
为检测新闻是否虚假,主要考虑两方面因素:(1)文本或视觉信息;(2)它们之间的关系。为了涵盖这两种情况,最终损失函数为:
参数可以被联合学习:
数据集中的新闻文章分别来自PolitiFact和GossipCop。PolitiFact (https://www。politifact.com/)是美国著名的非营利性政治声明和报告事实核查网站。GossipCop (https://www.gossipcop。Com/)是一个对杂志和报纸上发表的名人报道和娱乐故事进行事实核查的网站。PolitiFact数据集中的新闻文章发布于2002年5月至2018年7月,而GossipCop数据集中的新闻文章发布于2000年7月至2018年12月。两个数据集中新闻文章的Ground truth label (fake or true)均由领域专家提供,保证了新闻标签的质量。两个数据集的统计数据如表1所示。
每个数据集根据新闻文章的发布日期分为训练集和测试集,按8:2的比例。模型训练采用五重交叉验证。我们设置学习率为10−4,迭代次数为100,步幅(H)为{3,4}。
baseline
同时设置几个SAFE的变体:
结果表明,在预测假新闻时,SAFE在两个数据集上的准确率和F1分数都优于所有基线。同时,实验中,LIWC设置了多个监督学习器(如SVM、决策树、逻辑回归和k-NN),表2展示了最好的是随机森林。
在比较SAFE各变体的实验结果后(图3),得出结论:
(1)整合新闻文本信息、视觉信息及其关系(SAFE)在所有变体中表现最好;
(2)使用多模态信息(SAFE\S或SAFE\W)比使用单模态信息(SAFE\T或SAFE\V)表现更好;
(3)通过独立使用多模态信息(SAFE\S)或挖掘它们之间的关系(SAFE\W)来检测假新闻效果差不多;
(4)文本信息(SAFE\V)比视觉信息(SAFE\T)更重要。
在公式9中,α和β用于分配提取的多模态特征(α)和模态相似性(β)之间的相对重要性。为了评估它们对方法性能的影响,将α和β的值分别从0变为1,步长为0.2。图4的结果表明,对于两个数据集,不同的参数值导致SAFE的精度(或F1分数)在0.75到0.85(或0.8到0.9)之间。该方法在PolitiFact中的α: β = 0.4:0.6和GossipCop中的α: β = 0.6:0.4时表现最佳,再次验证了多模态信息和跨模态关系在预测假新闻中的重要性。
本文提出了一种用于检测假新闻的相似感知的多模态方法,称为SAFE,用于预测假新闻。该方法提取新闻内容的文本特征和视觉特征,并研究它们之间的关系。实验结果表明,多模态特征和跨模态关系(相似性)在假新闻检测中具有相当的价值和重要性。案例研究进一步验证了所提出方法在评估此类相似性和预测假新闻方面的有效性。所提出的方法只调查文本和视觉信息,而不考虑传播网络和视频信息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。