当前位置:   article > 正文

近年多模态谣言检测论文创新思路和创新点总结(未完结版)_hierarchical multi-modal contextual attention netw

hierarchical multi-modal contextual attention network for fake news detectio

MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection

原文:[PDF] MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection | Semantic Scholar

发表会议或期刊:IJCAI 2022;

代码地址GitHub - drivsaf/MFAN

问题:

1.虽然多模态,但没有考虑到社交结构特征

2.考虑到由于数据收集的限制,social network data中存在不完整链接(incomplete links)

3.graph的节点之间会有多种边关系,而传统的GNN无法区分不同边对目标节点的影响

4.如何有效融合social graph features和另外模态的信息研究较少

5.社交网络上的文本通常不严格遵守语言的语法规范

解决:

1.考虑社交结构特征,将textual,visual,social graph features同时考虑到一个框架中。

把获取的textual,visual,social graph features两两经过一个co-attention模块,最终得到6个特征,然后拼接这6个特征作为最终得到的post的特征表示。

2.推测(infer)隐藏链接

首先,本文将所有post,comment和user作为节点node,一起构建为一个graph。该graph中post,comment节点的初始emb用其sentence vectors表示,然后user节点的初始emb用该user所发的所有post的初始emb的均值表示。然后,作者计算该graph中每两个节点之间的余弦相似度(用节点的初始emb表示计算余弦相似度),如果余弦相似度>0.5,就认为这两个节点之间应该有一条潜在边(也就是有隐藏的链接)。通过上述方式,作者构建了一个新的graph,补全了原始graph中的缺失链接。

3.通过增强图拓扑结构和邻居聚合过程来改进graph的特征学习过程

原始GAT在计算了目标节点与它所有邻居节点的attention权重之后,直接softmax得到重要程度值。这种情况下attention权重如果是较大的负值,就会被赋予较小的重要程度。然而,post和comment组成的图中,负值的attention权重可能代表了一种相反的观点(比如post是谣言,而它的comment反对该post内容),那么这种情况下,负值就具有了重要的意义,不能直接被softmax为不重要的东西。因此,本文保留最开始计算出的attention权重,及该权重的取反值,然后分别进行后续softmax,加权和的计算。最后将得到的两个表示拼接并经过一个全连接层,得到最终的目标节点的emb。

4.介绍了一种自监督的损失函数从不同的角度对齐post表示,以实现更好的多模态融合

首先将textual和graphical features映射到同一个模态空间,然后计算映射后的特征表示的均方误差MSE loss,用最小化均方误差的方式来实现他俩的对齐。

5.采取了一种对抗扰动的方式来提升模型的鲁棒性

Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

发表会议或期刊:SIGIR 2021

代码地址GitHub - wangjinguang502/HMCAN

问题:

1.Bert的中间隐藏层实际上也包含很多有用的信息

2.对多模态上下文信息的利用不充分

解决:

1.Bert模型中间层有11个,加上最后一层共有12层表示,本文将相邻的4个层的表示求和(4个层为一组),得到3组层次化的文本语义表示。

2.提出多模态上下文注意力网络(感觉类似于协同注意力,不理解怎么能提取到上下文信息)

右边的transformer修改了标准transformer结构的输入,其他结构没有改变。其输入的Q来自input2,而KV值则来自input1,是左边transformer的输出结果。因此该transformer就是学习了input1和input2两者inter-modality的特征。

一个多模态上下文注意力网络中的一个contextual transformer1的input1和input2分别是text和image内容,而contextual transformer2的input1和input2分别是image和text。

参考:

【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态,谣言检测,注意力机制_pheme数据集-CSDN博客
【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测,多模态_假新闻检测论文_me_yundou的博客-CSDN博客
 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/353964
推荐阅读
相关标签
  

闽ICP备14008679号