赞
踩
多模态学习(Multimodal Learning)是在深度学习的框架下,将各种不同类型的数据整合在一个模型中进行建模。在单模态学习(Unimodal Learning)中,我们通常在单一模态的数据上进行建模,比如文本。例如,在文本数据上进行情感分析、分类、生成摘要或者翻译等等,这些任务基本上只会用到单一模态的文本数据。我们通过这种方式构建模型,然后将模型应用到相应的任务或应用中。图像处理也是类似的。事实上,在近几年之前,文本处理和图像处理这两个领域的发展基本上是独立的,它们的关联度并不高,尤其是在Transformer模型出现之前。
多模态的技术点如下:
多模态表示学习 (Representation) 将实体化信息(文本、图片)通过向量来表示,分为联合表示与协同表示
联合表示: 将多个模态的信息一起映射到一个统一的多模态向量空间
协同表示: 将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)
本质上是在向量空间当中对应的特征关系与原始信息是否具有一致性。模态转化 (Translation) 多模态转化也可称为映射 (Mapping),主要是将一个模态的信息转化或映射为另一个模态的信息。 比如:从图像模态转化为文本模态或者音频模态。
主要应用:机器翻译(MachineTranslation) 、唇读(Lip Reading)和语音翻译 (Speech Translation)、图片描述 (Image Captioning)与视频描述(Video Captioning)、语音合成(Speech Synthesis)模态对齐 (Alignment) 不同模态之间内容信息上的对齐;从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。
相关任务:给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述中对应的表述;图像语义分割(Image Semantic Segmentation)多模态融合(Fusion)
将不同模态的信息作内容上的互补,联合多个模态的信息,进行目标预测(分类或者回归)
相关任务 : 视觉-音频识别(Visual-Audio Recognition)、多模态情感分析(Multimodal sentiment analysis)、手机身份认证(Mobile IdentityAuthentication)协同学习(Co-learning) 不同模态多任务的学习方式,这个是多模态研究的主要技术点。通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀缺(比如较小数据)的模态建立模型。
协同学习本质上是利用不同模态资源的稀缺
本文介绍了一个中文单模态和多模态情感分析数据集CH-SIMS,该数据集包含了2281个经过精炼的视频片段,同时具有多模态和独立的单模态注释。它允许研究人员研究模态之间的相互作用,或者使用独立的单模态注释进行单模态情感分析。
情感分析是自然语言处理(NLP)。仅使用文本不足以判断说话者的情感状态,文本可能会产生误导。随着短视频应用的蓬勃发展,引入了非语言行为(视觉和音频)来解决上述不足。
多模态情感分析,在本文中,我们主要考虑先进行模态内表征学习,再采用模态间融合的后期融合方法。一个直观的想法是,模态间表征的差异越大,模态间融合的互补性越好。然而,现有的后期融合模型不容易学习不同模态之间的差异,进一步限制了融合的性能。原因在于,现有的多模态情感数据集只包含每个多模态片段的统一多模态标注,并不总是适合所有模态。换句话说,在模态内表征学习过程中,所有模态都共享一个标准注释。此外,这些统一的监督将引导模态内表征更加一致,减少差异性。
- 模态内表示: 必须考虑不同模态的时间或空间特征。基于卷积神经网络(CNN)、长短期记忆(LSTM)网络和深度神经网络(DNN)的方法是提取单模态特征的三种代表性方法
- 模态间融合: 协整(concatenation)、张量融合网络(Tensor Fusion Network, TFN)、低阶多模态融合(Lowrank Multimodal Fusion, LMF)、记忆融合网络(Memory Fusion Network, MFN)、动态融合图(Dynamic Fusion Graph, DFG)等。
数据集:
CHEAVD也是中国的多模态数据集,但它只包含两种模态(视觉和音频)和一个统一的注释。相比之下,SIMS除了每个片段的多模态标注外,还有三种模态和单模态标注。因此,研究人员可以利用SIMS来完成单模态和多模态的情感分析任务。此外,研究人员还可以利用这些额外的注释开发出多模态情感分析的新方法。
基于SIMS,我们提出了一个使用单模态和多模态标注的多模态多任务学习框架。在这个框架中,单模态和多模态任务共享底部的特征表示子网络。它适用于所有基于后期融合的多模态模型。然后,我们将TFN、LMF和Late-Fusion DNN(LFDNN)等三种晚期融合模型引入到我们的框架中。在单模态任务的情况下,多模态任务的性能显著提高。此外,我们对多模态情感分析、单模态情感分析和多任务学习做了详细的讨论。最后,我们验证了单模态标注的引入可以有效扩大不同模态之间的差异,在模态间融合中获得更好的性能。
注:以上内容均引用自网络,仅供自己学习
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。