赞
踩
总结:提出了一个自适应语言引导的多模态转换器 ALMT,通过AHL模块可以很好的解决视觉模态和音频模态无关信息对文本模态的影响(提取到了更佳的适合融合的模态特征)。
作者:Haoyu Zhang,Tianshu Yu
单位:The Chinese University of Hong Kong(香港中文大学)
会议/期刊:Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP 2023)(CCF B)
题目:Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
年份:2023
解决跨模态的潜在情感无关信息和冲突信息对MSA任务的影响。(解决干扰信息的影响)
ALMT的核心:Adaptive Hyper-Modality Learning(AHL)模块。
在 ALMT 中,首先使用带有初始化标记的转换器将每种模态转换成统一的形式。这一操作不仅抑制了跨模态的冗余信息,还压缩了长序列的长度(解决了模态对齐),从而提高了模型计算的效率。然后,引入了一个自适应超模态学习(AHL)模块,该模块利用不同尺度的语言特征主导引导视觉和音频模态生成中间超模态标记,其中包含较少的与情感无关的信息。最后,应用跨模态融合转换器,语言特征作为查询,超模态特征作为键和值。
分别使用BERT、Librosa、OpenFace模型提取文本模态、语音模态和视觉模态的表征。
H
m
1
=
E
m
0
(
concat
(
H
m
0
,
U
m
)
,
θ
E
m
0
)
∈
R
T
×
d
H_m^1=\operatorname{E}_m^0(\operatorname{concat}(H_m^0,U_m),\theta_{E_m^0})\in\mathbb{R}^{T\times d}
Hm1=Em0(concat(Hm0,Um),θEm0)∈RT×d
对于每一种模态,随机初始化一个token,即
H
l
0
,
H
a
0
,
H
v
0
H_l^0,H_a^0,H_v^0
Hl0,Ha0,Hv0。然后利用Transformer Layer(Transformer Layer层的结构与Vision Transformer相同)从原始模态特征
U
m
U_m
Um中提取重要的模态信息,并将其嵌入到先前的token中。
【将重要的模态信息转移到初始化的低维标记中,有利于减少与人类情感无关的冗余信息,从而以更少的参数实现更高的效率。】
AHL模块由两个Transformer层和三个AHL层组成,使用AHL模块学习不同尺度的语言特征,并在语言特征的指导下自适应地从视觉和音频模态中学习超模态表征,该超模态表征包含相关性/冲突抑制信息。
语言特征的获取:通过两个Transformer layer学习中尺度和高尺度的语言特征,即
H
l
2
与
H
l
3
H_l^2与H_l^3
Hl2与Hl3。
H
l
i
=
E
l
i
(
H
l
i
−
1
,
θ
E
l
i
)
∈
R
T
×
d
H_l^i=\operatorname{E}_l^i(H_l^{i-1},\theta_{E_l^i})\in\mathbb{R}^{T\times d}
Hli=Eli(Hli−1,θEli)∈RT×d
Adaptive Hyper-modality Learning Layer:
将语言特征
H
l
i
H_l^i
Hli作为query,音频特征与视觉特征
H
a
1
和
H
v
1
H_a^1和H_v^1
Ha1和Hv1作为Key,计算出语言特征与音频特征之间的相似性权重矩阵
α
\alpha
α和语言特征与视觉特征之间的相似性权重
β
\beta
β。
α
=
softmax
(
Q
l
K
a
T
d
k
)
=
softmax
(
H
l
i
W
Q
l
W
K
a
T
H
a
1
T
d
k
)
∈
R
T
×
T
β
=
softmax
(
Q
l
K
v
T
d
k
)
=
softmax
(
H
l
i
W
Q
l
W
K
v
T
H
v
1
T
d
k
)
∈
R
T
×
T
然后根据音频特征与视觉特征的value更新超模态特征。
H
h
y
p
e
r
j
=
H
h
y
p
e
r
j
−
1
+
α
V
a
+
β
V
v
=
H
h
y
p
e
r
j
−
1
+
α
H
a
1
W
V
a
+
β
H
v
1
W
V
v
首先将AHL模块的输出
H
l
3
与
H
h
y
p
e
r
3
H_l^3与H_{hyper}^3
Hl3与Hhyper3分别与初始化的token
H
0
H_0
H0进行连接,获得新的语言模态特征与新的超模态特征。然后通过Cross-modality Fusion Transformer得到一个联合多模态表征
H
H
H,最后将联合多模态表征
H
H
H输入到一个分类器中,得到最终的预测输出
y
^
\hat{y}
y^.
H
l
=
Concat
(
H
0
,
H
l
3
)
∈
R
(
T
+
1
)
×
d
H
h
y
p
e
r
=
Concat
(
H
0
,
H
h
y
p
e
r
3
)
∈
R
(
T
+
1
)
×
d
H
=
CrossTrans
(
H
l
,
H
h
y
p
e
r
)
∈
R
1
×
d
L = 1 N b ∑ n = 0 N b ∥ y n − y ^ n ∥ 2 2 \mathcal{L}=\frac1{N_b}\sum_{n=0}^{N_b}\|y^n-\hat{y}^n\|_2^2 L=Nb1n=0∑Nb∥yn−y^n∥22
N b N_b Nb代表训练集样本的数量。
数据集:MOSI,MOSEI,CH-SIMS
代码:https://github.com/Haoyu-ha/ALMT
实验环境:RTX 3090(24G)
符号 | 含义 |
---|---|
U m ∈ R T m × d m , m ∈ l , v , a U_m\in\mathbb{R}^{T_m\times d_m},m\in{l,v,a} Um∈RTm×dm,m∈l,v,a | 各模态原始特征序列 |
T m T_m Tm, d m d_m dm | 序列长度,向量维度 |
E m 0 E_m^0 Em0, θ E m 0 \theta_{E_m^0} θEm0 | 模态特征提取器,对应的参数(例如 W 和 b W和b W和b) |
c o n c a t ( ⋅ ) concat(\cdot) concat(⋅) | concatenation操作 |
H h y p e r j H_{hyper}^{j} Hhyperj | 超模态特征, j ∈ { 1 , 2 , 3 } j\in\{1,2,3\} j∈{1,2,3} |
C r o s s T r a n s ( ) CrossTrans() CrossTrans() | Cross-modality Fusion Transformer层 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。