当前位置:   article > 正文

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

learning language-guided adaptive hyper-modality representation for multimod

ALMT:学习语言引导的自适应超模态表征,用于多模态情感分析

总结:提出了一个自适应语言引导的多模态转换器 ALMT,通过AHL模块可以很好的解决视觉模态和音频模态无关信息对文本模态的影响(提取到了更佳的适合融合的模态特征)。

文章信息

作者:Haoyu Zhang,Tianshu Yu

单位:The Chinese University of Hong Kong(香港中文大学)

会议/期刊:Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP 2023)(CCF B)

题目:Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

年份:2023

研究目的

解决跨模态的潜在情感无关信息和冲突信息对MSA任务的影响。(解决干扰信息的影响)

Alt

研究内容

  • 提出了一个自适应语言引导多模态转换器(ALMT),解决了视觉和音频模态中干扰信息的不利影响。
  • 提出了一个自适应超模态学习模块(AHL),使用不同尺度的语言特征来引导视觉和音频模态形成一种超模态。

研究方法

ALMT的核心:Adaptive Hyper-Modality Learning(AHL)模块。

1.总体架构

image-20240228162755511

在 ALMT 中,首先使用带有初始化标记的转换器将每种模态转换成统一的形式。这一操作不仅抑制了跨模态的冗余信息,还压缩了长序列的长度(解决了模态对齐),从而提高了模型计算的效率。然后,引入了一个自适应超模态学习(AHL)模块,该模块利用不同尺度的语言特征主导引导视觉和音频模态生成中间超模态标记,其中包含较少的与情感无关的信息。最后,应用跨模态融合转换器,语言特征作为查询,超模态特征作为键和值。

2.Multimodal Input

image-20240228162821562

分别使用BERT、Librosa、OpenFace模型提取文本模态、语音模态和视觉模态的表征。

3.Modality Embedding

image-20240228152606361
H m 1 = E ⁡ m 0 ( concat ⁡ ( H m 0 , U m ) , θ E m 0 ) ∈ R T × d H_m^1=\operatorname{E}_m^0(\operatorname{concat}(H_m^0,U_m),\theta_{E_m^0})\in\mathbb{R}^{T\times d} Hm1=Em0(concat(Hm0,Um),θEm0)RT×d
对于每一种模态,随机初始化一个token,即 H l 0 , H a 0 , H v 0 H_l^0,H_a^0,H_v^0 Hl0,Ha0,Hv0。然后利用Transformer Layer(Transformer Layer层的结构与Vision Transformer相同)从原始模态特征 U m U_m Um​中提取重要的模态信息,并将其嵌入到先前的token中。

【将重要的模态信息转移到初始化的低维标记中,有利于减少与人类情感无关的冗余信息,从而以更少的参数实现更高的效率。】

4.Adaptive Hyper-modality Learning

AHL模块由两个Transformer层和三个AHL层组成,使用AHL模块学习不同尺度的语言特征,并在语言特征的指导下自适应地从视觉和音频模态中学习超模态表征,该超模态表征包含相关性/冲突抑制信息。

image-20240228162259341

语言特征的获取:通过两个Transformer layer学习中尺度和高尺度的语言特征,即 H l 2 与 H l 3 H_l^2与H_l^3 Hl2Hl3
H l i = E ⁡ l i ( H l i − 1 , θ E l i ) ∈ R T × d H_l^i=\operatorname{E}_l^i(H_l^{i-1},\theta_{E_l^i})\in\mathbb{R}^{T\times d} Hli=Eli(Hli1,θEli)RT×d
Adaptive Hyper-modality Learning Layer:

image-20240228163431293

将语言特征 H l i H_l^i Hli作为query,音频特征与视觉特征 H a 1 和 H v 1 H_a^1和H_v^1 Ha1Hv1作为Key,计算出语言特征与音频特征之间的相似性权重矩阵 α \alpha α和语言特征与视觉特征之间的相似性权重 β \beta β
α = softmax ( Q l K a T d k ) = softmax ( H l i W Q l W K a T H a 1 T d k ) ∈ R T × T

α=softmax(QlKaTdk)=softmax(HliWQlWKaTHa1Tdk)RT×T
α=softmax(dk QlKaT)=softmax(dk HliWQlWKaTHa1T)RT×T

β = softmax ( Q l K v T d k ) = softmax ( H l i W Q l W K v T H v 1 T d k ) ∈ R T × T

β=softmax(QlKvTdk)=softmax(HliWQlWKvTHv1Tdk)RT×T
β=softmax(dk QlKvT)=softmax(dk HliWQlWKvTHv1T)RT×T

然后根据音频特征与视觉特征的value更新超模态特征。
H h y p e r j = H h y p e r j − 1 + α V a + β V v = H h y p e r j − 1 + α H a 1 W V a + β H v 1 W V v

Hhyperj=Hhyperj1+αVa+βVv=Hhyperj1+αHa1WVa+βHv1WVv
Hhyperj=Hhyperj1+αVa+βVv=Hhyperj1+αHa1WVa+βHv1WVv

5.Multimodal Fusion and Output

image-20240228174753079

首先将AHL模块的输出 H l 3 与 H h y p e r 3 H_l^3与H_{hyper}^3 Hl3Hhyper3分别与初始化的token H 0 H_0 H0进行连接,获得新的语言模态特征与新的超模态特征。然后通过Cross-modality Fusion Transformer得到一个联合多模态表征 H H H,最后将联合多模态表征 H H H输入到一个分类器中,得到最终的预测输出 y ^ \hat{y} y^.
H l = Concat ( H 0 , H l 3 ) ∈ R ( T + 1 ) × d H h y p e r = Concat ( H 0 , H h y p e r 3 ) ∈ R ( T + 1 ) × d H = CrossTrans ( H l , H h y p e r ) ∈ R 1 × d

Hl=Concat(H0,Hl3)R(T+1)×dHhyper=Concat(H0,Hhyper3)R(T+1)×dH=CrossTrans(Hl,Hhyper)R1×d
Hl=Concat(H0,Hl3)R(T+1)×dHhyper=Concat(H0,Hhyper3)R(T+1)×dH=CrossTrans(Hl,Hhyper)R1×d

6.损失函数

L = 1 N b ∑ n = 0 N b ∥ y n − y ^ n ∥ 2 2 \mathcal{L}=\frac1{N_b}\sum_{n=0}^{N_b}\|y^n-\hat{y}^n\|_2^2 L=Nb1n=0Nbyny^n22

N b N_b Nb代表训练集样本的数量。

结果与讨论

  • 与SOTA方法进行比较,ALMT的效果最好。
  • 通过探究不同模态的影响,表明了文本模态比其他两种模态更重要,并且证明了AHL有利于减少视觉和听觉模态中出现的不利信息对性能的影响。
  • 通过探究不同组件的影响,表明了在ALMT框架中,每个模块都是必要的。
  • 通过探究Fusion Transformer中query与key的设定,表明了将语言模态设置为query效果是最好的。
  • 通过探究AHL不同语言特征对超模态学习指导的影响,证明了当所有语言特征都涉及超模态学习指导时,ALMT的效果最好。
  • 通过探究不同的融合技术,表明了使用Cross-modality Fusion Transformer进行模态融合,效果最佳。
  • 将ALMT的参数与其他的基于Transformer的方法进行比较,表明了ALMT在准确性和参数量之间有很好的平衡。
  • 通过对AHL的注意力进行可视化,表明了视觉模态比音频模态提供了更多的补充信息;通过可视化AHL的稳健性,表明了AHL可以抑制与情感无关的信息;通过可视化不同的表征,表明了AHL可以缩小音频和视觉模态表征的模态间/模态内分布;通过可视化不同模型的收敛过程,表明了ALMT更容易训练。(选择MAE指标进行比较,因为MAE表示模型对细粒度情感的预测能力)

代码和数据集

数据集:MOSI,MOSEI,CH-SIMS

代码:https://github.com/Haoyu-ha/ALMT

实验环境:RTX 3090(24G)

符号含义

符号含义
U m ∈ R T m × d m , m ∈ l , v , a U_m\in\mathbb{R}^{T_m\times d_m},m\in{l,v,a} UmRTm×dm,ml,v,a各模态原始特征序列
T m T_m Tm d m d_m dm序列长度,向量维度
E m 0 E_m^0 Em0 θ E m 0 \theta_{E_m^0} θEm0模态特征提取器,对应的参数(例如 W 和 b W和b Wb
c o n c a t ( ⋅ ) concat(\cdot) concat()concatenation操作
H h y p e r j H_{hyper}^{j} Hhyperj超模态特征, j ∈ { 1 , 2 , 3 } j\in\{1,2,3\} j{1,2,3}
C r o s s T r a n s ( ) CrossTrans() CrossTrans()Cross-modality Fusion Transformer层

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/588616
推荐阅读
相关标签