Image-Text Interaction Network（CCF B）_跨模态注意力机制

作者：weixin_40725706 | 2024-05-16 18:17:45

踩

跨模态注意力机制

Zhu T, Li L, Yang J, et al. Multimodal sentiment analysis with image-text interaction network[J]. IEEE Transactions on Multimedia, pages 1–1, 2022（CCF B类）

（1）Cross-modal Alignment Module

（2）Cross-modal Gating Module

（3）语境信息提取

（4）Multimodal Sentiment Classification

三、实验

1.在MVSA-S和在MVSA-M上的实验结果

2.消融实验的实验结果

3.案例分析

一、本文贡献

提出一种新的针对于多模态情感分析的图像文本交互网络。该方法通过对齐情感图像区域和文本词用于分析图像文本交互。
基于跨模态的注意力机制提出了一种跨模态的对齐模块，用来捕获图像区域和文本单词之间的细粒度对应关系；为抑制错位对齐的区域单词对所产生的消极影响，提出一个自适应的跨模态门模块融合多模态特征。
大量的实验验证了本文方法的优点。进行消融实验，验证方法的合理性。

二、本文所提出的方法

1.模型框架

2.图像文本交互

跨模态对齐模块目的是在嵌入空间中对齐图像区域和句子中的单词。

图像区域特征提取：对于输入的图像I，使用在Visual Genomes数据集上预训练的Faster R-CNN检测图像区域以及相关的表示。取每个图像的前m个区域提示框，每个区域是一个2048维的向量，定义为

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/579979