赞
踩
多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。
(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性,导致情感分析存在偏差。
(2)另一方面,多模态数据带来与情感分析无关的噪声,影响融合效果。
我们设计了一个 Polar-Vector (PV) 和一个 Strength-Vector (SV) 来分别判断情绪的极性和强度。
第一,PV是从文本和视觉特征的交流中获得的,用来决定情绪是积极的、消极的还是中性的。
第二,SV 是从文本和音频特征之间的通信中获得的,用于分析 0 到 3 范围内的情感强度。最后,我们混合 PV 和 SV 得到一个融合向量来判断情感状态。
第三,我们设计了一个由多个全连接层和激活函数组成的 MLP-Communication 模块(MLP-C),使不同的模态特征在水平和垂直方向上充分交互,是利用MLP进行多模态信息交流的一种新颖尝试。
图1 PS-Mixer 由三个部分组成:特征提取、模态通信和情感融合。特征提取组件生成三种低维特征(视觉、音频和文本)。模态通信组件用于生成两个情绪量表。情感融合组件融合了分类任务的两个情感尺度
拟议的 PS-Mixer 在两个公开可用的数据集 CMU-MOSEI 和 CMU-MOSI 上进行了测试,与基线方法相比,它在 CMU-MOSEI 上实现了最先进的 (SOTA) 性能。这些代码位于:https://github.com/metaphysicser/PS-Mixer。
MLP最初被认为在计算机视觉(CV)领域具有强大的表征能力,但早期的MLP训练受限于设备的计算能力。后来随着设备的计算能力逐渐增强,出现了越来越多的大型模型。 MLP 需要更大计算能力的缺点也被解决,因此 MLP 重新流行起来。最近的一些工作开始使用纯 MLP 框架进行图像分类任务,这也拓宽了 MLP 的使用场景。
例如,Tolstikhin 等人(2021)提出了 MLP-Mixer,它使用 MLP 来替代传统的卷积操作和注意力机制,并将其应用于图像分类任务。 MLP-Mixer 将图像分成不重叠的块,并将它们发送到 MLP 进行融合。 MLP-Mixer 提出了 token-mixer 和 channel-mixer 分别实现空间域和信道域的信息融合。尽管 MLP-Mixer 框架非常简单,但它在图像分类任务中取得了与基于 Transformer 的模型大致相同的结果。由于MLP框架设计简单,可以替代Transformer模块,验证了MLP架构在计算机视觉领域的可行性。
当使用大规模数据对模型进行预训练时,准确率提高了 5.73%,与 Transformer 的性能具有竞争力。这表明MLP可以基于大量的预训练来替代Transformer,而Transformer模块不是必需的。也证明了MLP在多模态融合中的有效性。受本文启发,我们决定提出一种应用于多模态领域的基于 MLP 的情感分析模型。
本文提出的方法利用MLP框架融合多模态数据,生成两个尺度分别判断情感的方向和强度,然后在情感融合模块中结合两个情感尺度输出决策结果。如图 1 所示,我们的模型包含三个主要模块:特征提取模块、模态通信模块和情感融合模块。特征提取模块用于将多模态原始数据提取为三个特定的低维向量表示。模态通信模块用于模态之间的信息交互,并获得两种不同的情感尺度(极性和强度)。最后,多模态融合模块被设置为结合之前获得的两个情感尺度,并将它们用于情感分类任务。详细描述在以下部分中提供。
Bert提取文本特征,LSTM提取视频和音频特征,与ACMMM2020-MISA一致
在送入MLP_Communicator之前先进行一次模态特征共享,然后再送入Communicator
(1)视频和文本特征的混合特征矩阵作为h1,送入MLP_Communicator
(2)音频和文本特征的混合特征矩阵作为h2,送入MLP_Communicator
两次Communicator不同点在于前馈层MLP_block的输入输出维度不一致
图2 模态通讯代码细节
图3 模态融合代码细节
简单地堆叠线性层和正则化层,除了输入输出维度更改,其余与ACMMM2020-MISA一致
图1 MOSEI 中多模态模型的性能。在 Acc-2 和 F1-Score 中,“/”左边计算为“negative/non-negative”,右边计算为“negative/positive”。向上的箭头表示这个指标越高越好,向下的箭头则相反。
首先,这篇paper属于23年的paper,性能不够,相比于20年的MISA的F-score下限降低了0.7,ACC-2下限降低了0.5,MAE降低了0.18,但是Acc-7提升了0.8个点。
此外,模型针对模态的不变特征表示考虑的并不深刻,其实还可以考虑不同模态之间的交互注意力。
最后,如文章最后所说,最后的损失函数还有改进空间。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。