赞
踩
博主已经更新过很多多模态系列的文章了,专栏传送门:多媒体与多模态专栏。
可以发现多模态虽然效果很好,但需要保证“多个”模态都一定要存在。但是在现实世界中,部分模态的缺失是很常见的,因此不完整/缺失多模态学习(Incomplete Multimodal Learning)任务也十分值得探索。本篇博文将整理这一研究方向中一些不错的文章。
Unified subspace learning for incomplete and unlabeled multi-view data
比较早期的文章,任务是跨模态检索或多模态聚类,主要存在两个问题:
因此,作者针对不完整和未标记的挑战提出了一种新颖的子空间学习框架。该模型直接优化了类指标矩阵(class indicator matrix),为不完整的特征集建立了桥梁。具体来说,该模型综合考虑了特征选择、模态间和模态内的相似性保持,用以增强子空间学习。
模型图如上所示,对于不完整的文本和图像模态,会先使用投影矩阵将原始特征投影到类指示符矩阵(class indicator matrix)中,该类指示符矩阵显式地捕获了聚类结构,并充当了潜在空间。 l ( ( X ′ ( g ) , U ( g ) ) , Y ′ ( g ) ) = ∣ ∣ [ X C ( g ) , X ′ ( g ) ] T U ( g ) − [ Y C ; Y ′ ( g ) ] ∣ ∣ F 2 l((X'^{(g)},U_{(g)}),Y'^{(g)})=||[X^{(g)}_C,X'^{(g)}]^TU_{(g)}-[Y^C;Y'^{(g)}]||^2_F l((X′(g),U(g)),Y′(g))=∣∣[XC(g),X′(g)]TU(g)−[YC;Y′(g)]∣∣F2此外,对投影矩阵施加组稀疏性进行特征选择,并保留模态间和模态内数据相似性来增强模型。
Incomplete Cross-modal Retrieval with Dual-Aligned Variational Autoencoders
来自MM2020,用VAE做不完整模态的跨模态检索。这里的Incomplete意思是作者认为现有的跨模态检索方法都假设每个模态中的样本都是足够和完整的,即在某种模态中有一个样本的情况下,在另一个模态中有一个具有相同标签的相应样本(如容易得到长颈鹿视频,但很难录到声音等,在文本的语义描述上也是如此)。
具体的解决方案如上图,提出双对齐变分自编码器,Dual-Aligned Variational Autoencoders (DAVAE)。主要是利用多个VAE,每个模态一个,以学习不同模式之间的潜在因素。然后这些潜在的表征在分布水平(最大熵)和语义水平(语义对齐)上进一步进行了双对齐,以减轻了模态差距,提高了表征的可辨别性。而对于缺失的实例,利用生成模型则可以合成它们的潜在表示。
Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities
ACL2021。motivation仍然是虽然多模态混合(文字,声音,图像视频)的方式被证明可以提升情感识别的性能,但在现实世界中通常会出现某些模态的信息丢失的现象,比如相机坏掉或者因为光线问题无法拍到人脸,比如语音转文字过程中出现的错误导致文字信息无法使用等等。同时,很多情况下并不知道具体哪种模态的信息会丢失,因此在完整模态上训练的模型的情感识别能力会遇到很大的影响。
因此作者们提出了一个,用于缺失模态的情况下的情感识别任务的,缺失模态想象网络(Missing Modality Imagination Network ,MMIN),这是一个可以应用于各种不同的缺失模态场景的统一模型。模型结构图如下:
主要有三个模块:1)用于提取特定于模态的嵌入的模态编码器网络; 2)基于级联残差自动编码器(CRA)和循环一致性学习的想象模块,用于在给定相应可用模态的表示的情况下想象缺失模态的表示。收集 CRA 中自动编码器的潜在向量以形成联合多模态表示; 3)基于联合多模态表示预测情绪类别的情绪分类器。
Deep Partial Multi-View Learning
TPAMI2020的文章。由于视图之间的复杂关联、数据缺失等问题,算法的有效性和稳定性仍然面临巨大挑战。因此作者提出了深度多视图完备表示,在统一框架下有效解决复杂缺失情况下的分类、补全问题。
paper:http://arxiv.org/abs/2011.06170
SMIL: Multimodal Learning with Severely Missing Modality
AAAI2021,目标是解决严重缺失模态的多模态学习,这里的“严重”是指90%的训练数据中都存在着模态缺失的情况,如上图的(d)。文章提出了一种名为SMIL的新方法,该方法利用贝叶斯元学习统一实现了两个目标,具体模型如下图。
在抽取完特征后,主要是通过重建网络
φ
c
φ_c
φc 输出后验分布,然后从中采样权重
ω
ω
ω 以使用模态先验重建缺失的模态。
而正则化网络 φ r φ_r φr 还输出一个后验分布,然后从中采样正则化器 r r r 以扰动潜在特征以实现平滑嵌入。 两者的协作( φ c φ_c φc 和 φ r φ_r φr)保证了灵活高效的学习。
paper:https://arxiv.org/pdf/2103.05677.pdf
code:https://github.com/mengmenm/SMIL
GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation
任务是用于对话(Conversation)中不完全模态。如上图左上角,语音可能由于背景噪声或传感器故障而丢失;由于自动语音识别错误或未知单词,文本可能不可用;由于照明、运动或遮挡,这些面孔可能无法被检测到。因此不完全模式的问题增加了准确理解对话的困难。
为了解决这个问题,作者提出了一种新的对话中不完全多模态学习框架,称为“图完全网络(Graph Completion Network,GCNet)”。其包含两个GNN模块,“Speaker GNN”(A和B的关系)和“Temporal GNN”(句子出现的先后顺序),用于捕获会话中的时态和说话人信息,其中每个node的多模态信息都会被丢弃一部分以模拟现实。
paper:https://arxiv.org/pdf/2203.02177v1.pdf
Geometric Multimodal Contrastive Representation Learning
一个好的多模态表示需要满足:
因此需要对每个模态的独特特征进行相应的处理和有效的组合,去解决多模态表示学习中的异质差距。作者们提出了一种新的几何多模态对比(Geometric Multimodal Contrastive,GMC)表征学习方法,模型框架如上图所示,该方法由两个主要部分组成:
paper:https://arxiv.org/pdf/2202.03390v2.pdf
更多多模态系列的文章,欢迎订阅专栏,传送门:多媒体与多模态专栏。
博主完整的博文集合,传送门:博文目录索引
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。