赞
踩
现实环境中经常遇到模态不完整问题:语音可能由于背景噪音或传感器故障而丢失;由于自动语音识别错误或未知单词,文本可能不可用;由于光照、运动或遮挡,可能无法检测到面部。本研究旨在利用缺失模态数据预测出相应视频片段对应情感类别。
(1) 数据增强方法:随机删除输入模拟缺失模态情况(训练期间随机删除视觉片段,模拟真实世界的缺失模态场景)
(2) 基于生成方法:生成具有相似分布的新数据,以服从观测数据分布
(3) 基于联合学习方法:根据不同模态间的关系学习联合表示(目前主流,目前看到的近3年文章都是基于联合学习的方法)
(1) IEMOCAP1234:二元对话会话数据集,设置四类情绪识别
(2) MSP-IMPROV1:二元对话会话数据集,包含四种情绪设置
(3) CMU-MOSI3456:来源YouTube,情感标签在[-3,3]范围,被标注为积极或消极当作二分类任务。也有研究直接用所标注的值6。
(4) CMU-MOSEI67:MOSI数据集升级版,同样被标注为积极和消极
(5) MELD5:来源老友记,考虑了7种情绪标签和3种情感倾向标签(积极消极中性)
(1) 完全缺失模态数据1257:测试数据往往全部为缺失模态。(3种模态,缺失一个或者两个,共有6种缺失方案。因此由全模态数据集生成缺失模态数据集,生成的缺失模态数据集数量是全模态数据集的6倍);
(2) 部分缺失数据346:测试数据部分缺失(通过设置缺失率选择相应比重的缺失数据,然后随机缺失一个或者两个模态)
(1) 三元组12347:固定输入为
(
A
,
T
,
V
)
(A,T,V)
(A,T,V) 三元组形式,对于缺失模态用0向量填充。部分文献还对缺失模态进行标签编码37。
(2) 单独输入5:基于模态转换模型,不进行统一处理
(3) 统一输入6:根据不同缺失,设置不同输入组合
{
(
A
)
,
(
T
)
,
(
V
)
,
(
A
,
T
)
,
(
A
,
V
)
,
(
T
,
V
)
}
\{(A),(T),(V),(A,T),(A,V),(T,V)\}
{(A),(T),(V),(A,T),(A,V),(T,V)}
论文地址:https://aclanthology.org/2021.acl-long.203/
总结:通过构建缺失模态特征,学习到能表征情感的多模态联合特征
使用全模态数据训练用于提取模态特征的模态编码器网络
基于级联残差自编码器(CRA)和循环一致性学习的想象模块,用于在给定相应可用模态表示的情况下想象缺失模态的表示。收集CRA中自编码器的潜在向量,形成联合多模态表示;
整体过程:
首先多模态模态编码器E在全模态数据上进行预训练。利用E获取剩余模态的特征 h h h后,通过CAR获取预测的缺失模态特征 h ’ h’ h’,并与缺失模态数据单独通过固定参数E提取的特征 h ^ \widehat{h} h 比较(前向)。此外, h ’ h’ h’通过CRA得到恢复的可用模态特征 h ’’ h’’ h’’,与 h h h进行比较(反向)。CAR每个自编码器中间层拼接用于预测情感。
收集每个自编码器潜在向量进行连接得到联合多模态表示,用于情感类别预测。
论文地址:https://arxiv.org/abs/2210.15359
总结:论文1MMIN的改进,从模态特定性和不变性出发进行改进
引入基于CMD距离约束策略,预训练特定性编码器和不变性编码器。(红色箭头表示基于CMD的距离约束,以强制各种模态特征映射到相同的语义子空间。)
L
c
m
d
=
1
3
∑
m
1
,
m
2
)
∈
{
(
t
,
a
)
,
(
t
,
v
)
(
a
,
v
)
}
(
∥
E
(
H
m
1
)
−
E
(
H
m
2
)
∥
2
+
∑
k
=
2
K
∥
C
k
(
H
m
1
)
−
C
k
(
H
m
2
)
∥
2
)
整体过程:
利用预训练特定性编码器抽取输入的可用模态的特定特征 h h h,级联预训练不变编码器抽取不变特征 H ’ H’ H’,两者拼接送入级联残差自编码器预测缺失模态 h ’ h’ h’。利用固定参数的预训练特定性编码器,获取缺失模态数据的特定性特征 h ’’ h’’ h’’,与 h ’ h’ h’进行比较计算损失;利用固定参数的预训练不变性编码器,获取全模态的不变性特征 H H H,与 H ’ H’ H’进行比较计算损失。同样,利用级联自编码器隐层拼接进行情感预测。总损失包括特定特征损失、不变特征损失以及分类损失。
论文地址:https://arxiv.org/abs/2204.13707
总结:针对于不确定缺失模态,利用标签编码标记缺失模态
用四维数字表示模态缺失情况,第一位表示是否模态缺失(0为缺失),后面三位数字表示视觉,声学,文字三个模态的缺失情况(1为缺失)
为了将三个模态投影到公共空间,首先对于每个单一模态得到自相关的公共空间,
W
v
a
W_{va}
Wva,
W
v
t
W_{vt}
Wvt以及
W
t
a
W_{ta}
Wta为权重矩阵。然后将所有公共向量和编码标签连接,得到最终共同的联合表示。
C
v
=
[
W
v
a
E
v
∥
W
v
t
E
v
]
C
a
=
[
W
v
a
E
a
∥
W
t
a
E
a
]
C
t
=
[
W
v
t
E
t
∥
W
t
a
E
t
]
E
all
=
[
C
v
∥
C
a
∥
C
t
∥
E
t
a
g
]
整体的损失为分类损失(交叉熵)、前向损失(JS散度)、反向损失(JS散度)、标签重建损失(四维标签编码,MAE)加权和。
整体过程:
将缺失模态掩码为0,提取已有模态的原始特征后经过两个分支:
1)一个分支由预训练模型编码,该模型使用所有全模态数据进行训练;
2)另一个分支通过标签编码模块和公共空间投影模块获得对齐的特征向量。然后,通过Transformer编码器对更新后的表示进行处理,并计算预训练向量与编码器输出之间的前向相似性损失。同时,将编码后的输出输入分类器进行情感预测。最后,我们计算了后向重构损失和标签恢复损失来监督联合表示学习。
论文地址:https://aclanthology.org/2022.emnlp-main.189/
总结:关键模态缺失引起情感不一致,基于集成学习检测和恢复关键缺失模态语义特征
缺失模态数据先通过MHA模态编码,再经历两个分支
1)一个由预训练网络编码,该网络经过所有完整模式的训练,
2)另一个通过编-解码器网络获得相应的输出,其中编码器输出用于情感分类。 最后,计算前向相似性损失和后向重建损失来监督联合特征的学习过程。(整体架构和论文[3]类似)
将Decoder输出缺失模态代替初始化 X a ’ Xa’ Xa’,得到恢复的完整模态,经过MHA和FC得到恢复全模态预测的情感。通过语义一致性进行检测,比较恢复的完整模态和可用的模态预测语义标签,若相等说明所缺失的不是关键模态,可直接预测。
若语义不一致,说明缺失关键模态,利用集成学习降低语义不一致性。
首先需要将恢复后的模态两两组合,获得相应的情感标签。由于每种模态组合重要性不同,根据最大逻辑获得各个模态组合的权重。
α
=
softmax
(
[
L
v
a
′
∥
L
v
t
′
∥
L
a
t
′
]
)
L
k
′
=
max
L
k
(
softmax
(
L
k
)
)
,
k
∈
{
v
a
,
v
t
,
a
t
}
E
k
e
y
=
[
α
v
a
L
v
a
∥
α
v
t
L
v
t
∥
α
a
t
L
a
t
]
得到聚合特征后,分别利用AE(自编码器)、MMIN[1]以及Transformer进行进一步决策,设置关注权重整合三个模型的输出,用于后续分类。
论文地址:https://aclanthology.org/2021.acl-long.412/
总结:通过学习一种模态到另一种模态间的定向转换器,在模态缺失时可以重构缺失模态
基于Transforemer编码器,采用环形一致性结构保持正向反向转换一致性,从而实现一个模态输入到另一个模态转移表达。 X a X_a Xa通过 T r a n A → V Tran_{A→V} TranA→V后得到 X v ’ X_v’ Xv’, X v ’ X_v’ Xv’通过 T r a n V → A Tran_{V→A} TranV→A得到 T r a n V → A ( X v ’ ) Tran_{V→A}(X_v’) TranV→A(Xv’);同理可得,对称过程为 X v X_v Xv通过 T r a n V → A Tran_{V→A} TranV→A后得到 X v ’ X_v’ Xv’, X v ’ X_v’ Xv’通过 T r a n A → V Tran_{A→V} TranA→V得到 T r a n A → V ( X v ’ ) Tran_{A→V}(X_v’) TranA→V(Xv’),构建损失函数需要保证生成的模态特征与原始模态特征距离尽可能小。(此处和[1]中循环一致性异曲同工,引入参数 α α α能平衡正向和反向循环一致性的贡献,从而获得更加灵活的循环一致性。)
l
A
→
V
(
X
a
,
X
v
)
=
∥
Tran
A
→
V
(
X
a
,
X
v
)
−
X
v
∥
F
+
+
∥
Tran
A
→
V
(
X
a
,
X
v
)
−
X
v
∥
F
l
V
→
A
(
X
v
,
X
a
)
=
∥
Tran
V
→
A
(
X
v
,
X
a
)
−
X
a
∥
F
+
∥
Tran
V
→
A
(
X
v
,
X
a
)
−
X
a
∥
F
l
A
↔
V
=
α
l
A
→
V
(
X
a
,
X
v
)
+
(
1
−
α
)
l
V
→
A
(
X
v
,
X
a
)
作者认为在Transformer模态转换器的中间层,能得到两个模态间的联合表示。因此将将一对模态转换器中间层输出,按照时间维度进行拼接,再利用1D时间卷积探索局部关联。
提出一种利用多模态双向转移分层体系架构。对于3种模态两两转换,共有6个模态转换器,得到6个跨模态联合表征。将相同源模态转换的联合表征进行拼接,利用1D卷积提取局部特征,最后将所有融合特征整合通过MLP进行情感预测。(对于3个模态转换器共享参数
α
α
α,便于控制平衡训练损失。)
将使用全模态数据训练的模态转换器用于缺失模态数据测试,获取转换器中间层联合表征,进行后续情感预测。
论文地址:https://www.researchgate.net/publication/376711705_MissModal_Increasing_Robustness_to_Missing_Modality_in_Multimodal_Sentiment_Analysis
总结:提出三个约束,将缺失模态的表示与完整模态的表示进行对齐
对于提取到各个模态的特征,采用几个简单的MLP和tanh激活层作为融合网络,获得完整模态的特征
F
M
F_M
FM,以及缺失模态的特征
F
m
i
s
s
F_{miss}
Fmiss。(文中提到这里的融合方法可以换做更好的模型,作者再次只想突出后续约束的贡献)
F
M
=
M
L
P
(
[
T
;
A
;
V
]
)
∈
R
d
M
F
miss
=
M
L
P
(
[
modality
;
…
]
)
∈
R
d
M
本文提出三种损失作为约束,将缺失模态表示 F m i s s F_{miss} Fmiss和完整模态表示 F M F_M FM对齐
引入对比学习,在情感标签监督中对来自相同话语样本的完整模态表征和缺失模态表征进行几何对齐。鼓励多模态融合网络将完整模态信息转移到缺失模态表征中,使它在处理缺失模态问题时更容易被区分。
对于同一批的多模态表征
B
=
{
F
M
i
,
F
miss
i
}
i
=
1
B
\mathcal{B}=\left\{F_M^i, F_{\text {miss }}^i\right\}_{i=1}^B
B={FMi,Fmiss i}i=1B,定义正样本
(
F
M
i
,
F
miss
i
)
\left(F_M^i, F_{\text {miss }}^i\right)
(FMi,Fmiss i),负样本为
(
F
M
i
,
F
miss
i
)
\left(F_M^i, F_{\text {miss }}^i\right)
(FMi,Fmiss i),
(
F
M
i
,
F
M
j
)
\left(F_M^i, F_M^j\right)
(FMi,FMj),
(
F
miss
i
,
F
miss
j
)
\left(F_{\text {miss }}^i, F_{\text {miss }}^j\right)
(Fmiss i,Fmiss j) 以及
(
F
M
i
,
F
miss
j
)
\left(F_M^i, F_{\text {miss }}^j\right)
(FMi,Fmiss j),计算正样本和负样本的相似度之和。
s
p
,
q
(
i
,
j
)
=
exp
(
F
p
i
⋅
F
q
j
/
γ
)
,
p
,
q
∈
{
M
,
miss
}
N
p
,
q
(
i
)
=
∑
i
≠
j
B
s
p
,
p
(
i
,
j
)
+
∑
j
=
1
B
s
p
,
q
(
i
,
j
)
构建几何对比损失,
L
geo
=
−
1
B
∑
i
=
1
B
log
s
p
,
q
(
i
,
i
)
N
p
,
q
(
i
)
引入
L
2
L2
L2距离约束,进一步减小来自同一样本的
F
M
F_M
FM与
F
m
i
s
s
F_{miss}
Fmiss间的分布距离
L
dis
=
1
B
∑
i
=
1
B
∥
F
M
i
−
F
miss
i
∥
2
2
利用情绪标签真值监督标签空间中缺失模态表示的情感预测,减少由于模态缺失而引起与完整模态情感预测不一致。
L
sem
=
1
B
∑
i
=
1
B
∣
y
i
−
y
^
miss
i
∣
在得到完整模态的情绪预测结果后,利用MAE损失对情绪标签进行回归。
L
task
=
1
B
∑
i
=
1
B
∣
y
i
−
y
^
M
i
∣
最后计算所有训练损失的加权和,得到最终的优化目标:
L
total
=
L
task
+
L
sem
+
α
L
geo
+
β
L
dis
论文地址:https://dl.acm.org/doi/abs/10.1007/978-3-031-27818-1_34
总结:引入以文本为中心多模态对齐模块,缓解文本模态缺失导致性能衰退。
文本贡献最大,在此将非文本模态和文本稳态对齐。
首先利用MLP将声音和视觉投影到与文本同样维度,利用GloVe对情感类别进行编码。在训练过程中国,保持情感嵌入E冻结,利用
L
2
L2
L2归一化约束将文本特征空间种三个模态特征聚类为锚点。
∥
f
a
proj
−
E
y
∥
2
2
+
∥
f
t
′
−
E
y
∥
2
2
+
∥
f
v
proj
−
E
y
∥
2
2
此时,视觉和声学模态在文本特征空间的位置,被引导至更具语义的文本特征处
计算三个模态和所有情感嵌入的点积相似度加权和,从而获得分类为各个情感的概率
p
a
=
E
f
a
p
r
o
j
,
p
t
=
E
f
t
′
,
p
v
=
E
f
v
p
r
o
j
p
=
softmax
(
w
a
p
a
+
w
t
p
t
+
w
v
p
v
)
总损失为分类损失(交叉熵)、缺失模态重构损失、对齐损失(模态特征和其对应情感嵌入之间L2距离之和)加权和。
Zhao J, Li R, Jin Q. Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities[A]. C. Zong, F. Xia, W. Li, 等. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)[C]. Online: Association for Computational Linguistics, 2021: 2608–2618. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Zuo H, Liu R, Zhao J, 等. Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities[EB/OL]. arXiv.org. 2022-10-27/2024-01-10. https://arxiv.org/abs/2210.15359v1. ↩︎ ↩︎ ↩︎
Zeng J, Liu T, Zhou J. Tag-assisted Multimodal Sentiment Analysis under Uncertain Missing Modalities[A]. Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. New York, NY, USA: Association for Computing Machinery, 2022: 1545–1554. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Zeng J, Zhou J, Liu T. Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities[A]. Y. Goldberg, Z. Kozareva, Y. Zhang. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing[C]. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022: 2924–2934. ↩︎ ↩︎ ↩︎ ↩︎
Tang J, Li K, Jin X, 等. CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Network[A]. C. Zong, F. Xia, W. Li, 等. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)[C]. Online: Association for Computational Linguistics, 2021: 5301–5311. ↩︎ ↩︎ ↩︎ ↩︎
Lin R, Hu H. MissModal: Increasing Robustness to Missing Modality in Multimodal Sentiment Analysis[J]. Transactions of the Association for Computational Linguistics, 2023, 11: 1686–1702. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Luo W. Multimodal Reconstruct and Align Net for Missing Modality Problem in Sentiment Analysis[J]. . ↩︎ ↩︎ ↩︎ ↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。