当前位置:   article > 正文

【论文阅读】SIGIR 2021:Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

hierarchical multi-modal contextual attention network for fake news detectio

Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

论文来源:SIGIR 2021

论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462871

数据集地址:待补充

Motivation

作者认为:

  • 之前工作的文本模态表示为了提取深层次的表示而忽略了其余层的信息
  • 同时,新闻的上下文(视觉、文本)互补信息缺乏有效的提取手段。

Method

在这里插入图片描述

模型包括了:

  1. 编码器(视觉、文本)
  2. 分层文本信息融合
  3. 魔改注意力
  4. 分类头

编码器

采用ResNet-50Bert分别对视觉、文本进行编码

分层文本融合

Bert的12层encoder输出分组,文章中分成3组,即14,58,9~12三组,由于concat会增加计算复杂度,所以作者直接通过sum求和不改变特征的维度,得到三个特征t1, t2, t3。

魔改注意力

这一层的输入共有4个,3个是分层融合得到的文本特征,1个是ResNet提取到的视觉特征。

对于每一个注意力模块,输入都是1个文本特征,1个视觉特征。模型中这三个注意力模块都是共享参数的。

对于模块的内部,有两轮操作,每轮分两步。视觉和文本特征轮流作为Q、K、V。比如:

  • 第一轮第一步,文本特征先单独作为Q、K、V,相当于做自注意力操作
  • 第一轮第二步,将第一步得到的结果与视觉特征再做一次注意力。其中,视觉特征做Q,上一步的结果做K和V,最后将第一步和第二步的结果做concat输出,称作 C T I C_{TI} CTI

第二轮和第一轮类似,只不过视觉特征和文本的顺序交换一下。得到的特征称为 C I T C_{IT} CIT

两轮的结果做一个组合: C i = α ∗ C T I + ( 1 − α ) ∗ C I T , i ∈ [ 0 , 2 ] C_i=\alpha*C_{TI}+(1-\alpha)*C_{IT},i\in[0,2] Ci=αCTI+(1α)CIT,i[0,2]

分类头

将上一层输出的 C i C_i Ci做concat拼接起来,送入全连接层分类。

Result

总的结果:
在这里插入图片描述

消融实验的结果:

从上到下依次为:

  • 去掉视觉特征,纯文本的情况
  • 去掉context attention模块
  • 去掉分层文本编码模块

在这里插入图片描述

除此之外,作者还讨论了bert编码的分组数对结果的影响:

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/353963
推荐阅读
相关标签
  

闽ICP备14008679号