当前位置:   article > 正文

【论文精读】| Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Ana

learning language-guided adaptive hyper-modality representation for multimod

 

        本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文。

         

         

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

用于多模态情感分析的学习语言引导的自适应超模态表示

发表在Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP 2023)(CCF B)

数据集:MOSI, MOSEI, and CHSIMS

实验环境:RTX 3090(24G)

代码地址:https://github.com/Haoyu-ha/ALMT

Abstract

        尽管多模态情感分析(MSA)通过利用来自多个来源(例如语言、视频和音频)的丰富信息证明了其有效性,但跨模态的潜在情感无关和冲突信息可能会妨碍性能的进一步提高。

        为了缓解这一问题,本文提出了自适应语言引导的多模态Transformer(ALMT),它结合了自适应超模态学习(AHL)模块,以在不同尺度下在语言特征的指导下从视觉和音频特征中学习一种抑制无关/冲突的表示。通过获得的超模态表示,模型可以通过多模态融合获得互补和联合表示,从而实现有效的MSA。

        在实践中,ALMT在几个常见数据集(例如MOSI、MOSEI和CH-SIMS)上取得了最先进的性能,并且大量消融实验证明了本文抑制无关/冲突机制的有效性和必要性。

 


 

1 Introduction

        最新的MSA方法可以分为两类:以表征学习为中心的方法和以多模态融合为中心的方法。以表示学习为中心的方法主要侧重于学习包含丰富多样的人类情感clues的精细模态语义,这可以进一步提高用于关系建模的多模态融合的效率。另一方面,以多模态融合为中心的方法主要侧重于直接设计复杂的融合机制,以获得多模态数据的联合表示。

        此外,一些工作和相应的消融研究(Hazarika et al.,2020;Rahman等人,2020;Guo et al.,2022)进一步表明,各种模态对识别的贡献不同,其中语言模态是主导模态。然而,我们注意到,由于情感无关,来自不同模态的信息可能是模糊和冲突的,尤其是来自非主导模态的信息(例如,视频中的照明和头部姿势以及音频中的背景噪声)。这样的破坏性信息会极大地限制MSA方法的性能。作者在几个数据集中观察到了这种现象(见第4.5.1节),图1中给出了说明。据作者所知,以前从未明确和积极地考虑过这一因素。

        

 Contributions:

  • 提出了一种新的多模态情感分析方法,即自适应语言引导的多模态变换器(ALMT),它首次明确解决了辅助模态(即视觉和音频模态)中冗余和冲突信息的不利影响,实现了更稳健的情感理解性能。
  • 设计了一种新的用于表示学习的自适应超模态学习(AHL)模块。AHL使用不同尺度的语言特征来引导视觉和音频模态形成一个补充语言模态的超模态。
  • ALMT在几个公开且广泛采用的数据集中实现了最先进的性能。进一步提供了深入的分析和丰富的实证结果,以证明所提出方法的有效性和必要性。

 


 

2 Related Work

 

MSA

        对于以表征学习为中心的方法,Hazarika等人(2020)和Yang等人(2022)认为多模态的表征学习是一项领域适应任务。他们分别使用度量学习和对抗性学习来学习用于多模态融合的模态不变子空间和模态特定子空间,在几个流行的数据集中实现了高级性能。韩等人(2021)提出了一个名为MMIM的框架,该框架通过分层互信息最大化来改进多模态融合。Rahman等人(2020)和Guo等人(2022)设计了不同的架构,通过结合语言和非语言行为信息之间的多模态交互来增强语言表示。然而,这些方法没有足够重视与情绪无关的冗余信息,这些信息更有可能出现在视觉和音频模式中,这限制了MSA的性能。

         对于以多模态融合为中心的方法,Zadeh等人(2017)提出了一种融合方法(TFN),该方法使用张量融合网络通过计算笛卡尔乘积来对不同模态之间的关系进行建模。Tsai等人(2019a)和Huang等人(2020)引入了一种多模态Transformer来对齐序列并对跨模态的元素之间的长程依赖性进行建模。然而,这些方法直接融合了来自单一模态的信息,更容易引入与情绪无关的信息,从而获得次优结果。

 


 

3 Methodology

3.1 Oveview

         

        ALMT首先从输入中提取统一的模态特征。然后,采用自适应超模态学习(AHL)模块,以不同尺度的语言特征为指导,学习自适应超模态表示。最后,应用跨模态融合变换器来合成以语言特征为锚点的超模态特征,从而获得MSA的语言引导超模态网络。 

3.2 Multimodal Input

        关于多模态输入,每个样本由语言(l)、音频(a)和视觉(v)源组成。参考之前的工作,作者首先获得了分别由BERT(Kenton和Toutanova,2019)、Librosa(McFee et al.,2015)和OpenFace(Baltrusaitis et al.,2018)计算的预计算序列。然后,将这些序列输入表示为,其中m∈{l,v,a},Tm是序列长度,dm是每个模态的向量维数。在实践中,Tm和dm在不同的数据集上是不同的。例如,在MOSI数据集上,Tv、Ta、Tl、da、dv和dl分别为50、50、50,5、20和768。 

 

3.3 Modality Embedding

         

        对于多模态输入Um,作者引入三个Transformer层来分别统一每个模态的特征。更具体地说,为每个模态随机初始化一个低维令牌,并使用Transformer将基本模态信息嵌入到这些令牌中。

        

        其中H1 m是每个大小为T×d的模态m的统一特征,E0 m和θE0 m分别表示模态特征提取器和相应的参数,concat(·)表示级联运算。

        在实践中,T和d分别被设置为8和128。Transformer层的结构被设计为与深度设置为1的视觉Transformer(VIT)(Dosovitskiy等人,2021)相同。此外,值得注意的是,将基本模态信息转移到初始化的低维令牌有利于减少与人类情感无关的冗余信息,从而以较小的参数实现更高的效率。

 

3.4 Adaptive Hyper-modality Learning 

        在模态嵌入之后,进一步使用自适应超模态学习(AHL)模块来学习包含相关性/冲突抑制信息并高度补充语言特征的精细超模态表示。("冲突抑制信息"可以理解为在多模态学习中,为了更好地整合不同模态的信息,需要学习到一些能够抑制或减少模态之间可能产生的冲突的信息。这些信息可以帮助确保不同模态之间的特征表示是协调一致的,从而更好地支持情感分析等任务。)AHL模块由两个Transformer层和三个AHL层组成,旨在学习不同尺度的语言特征,并在语言特征的指导下从视觉和音频模态自适应地学习超模态特征。在实践中,本文发现语言特征显著影响超模态的建模。

 

3.4.1 Construction of Two-scale Language Features 两尺度语言特征的构建 

        将特征定义为低尺度语言特征。通过该特征,引入两个Transformer层来学习中尺度和高尺度(即)的语言特征。与模态嵌入阶段将基本模态信息传输到初始化令牌的Transformer层不同,该阶段的层直接对语言特征建模: 

        

        其中i∈{2,3},Hi-l是大小为T×d的不同尺度的语言特征,Eil和θEil表示用于语言特征学习的第i个Transformer层和相应的参数。在实践中,使用8头注意力对每个模态的信息进行建模。 

-----------------------------------------------------------------------------(存疑:为什么这里不使用相同的?) 


         

 

3.4.2 Adaptive Hyper-modality Learning Layer 自适应超参数学习层

        对于不同尺度的语言特征,首先初始化一个超模态特征,然后通过计算所获得的语言特征之间的关系和使用多头注意力的两种剩余模态来更新特征

        如图3所示,使用提取的作为query,作为key,就可以获得语言特征和音频特征之间的相似度矩阵α:

         

        其中softmax表示权重归一化运算,是可学习的参数,dk是每个注意力头的维数。在实践中,作者使用了8头注意力,并将dk设置为16。

        与α类似,β表示语言模态和视觉模态之间的相似矩阵: 

        

        其中是可学习的。

        然后,超模态特征Hj-hyper可以通过加权音频特征和加权视觉特征更新为:

        

        其中j∈{1,2,3}和分别表示第 j 个AHL层和相应的输出超模态特征,是可学习的参数。

 

         

 

3.5 Multimodal Fusion and Output 

        在多模态融合中,首先通过将初始化的标记分别与连接,获得新的语言特征以及新的超模态特征。然后,应用跨模态融合Transformer将重要的联合和互补信息传递到这些tokens。

        在实践中,跨模态融合Transformer融合了语言特征(用作查询)和超模态特征(用作key和value),从而获得了用于最终情感分析的联合多模态表示

        将跨模态融合Transformer表示为CrossTrans,因此融合过程可以写成:

        

         

        在多模态融合之后,通过在跨模态融合TransformerH的输出上应用分类器来获得最终的情感分析输出。在实践中,还使用8头注意力来对语言模态和超模态之间的关系进行建模。

3.6 Overall Learning Objectives

        总之,本方法只涉及一个学习目标,即情绪分析学习损失L,即

        

        其中Nb是训练集中的样本数,yn是第n个样本的情绪标签。yõn是ALMT的预测。

        此外,由于优化目标很简单,与具有多个优化目标的先进方法(Hazarika等人,2020;Yu等人,2021)相比,ALMT更容易训练,而无需调整额外的超参数。更多细节见第4.5.10节。 

 


【论文解读之多模态情感分析系列】——ALMT - 知乎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/588637
推荐阅读
相关标签
  

闽ICP备14008679号