Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition 阅读笔记_active speaker recognition using cross attention a

作者：Li_阴宅 | 2024-08-13 10:38:25

踩

active speaker recognition using cross attention audio-video fusion

摘要

摘要——多模态分析最近引起了人们对情感计算的浓厚兴趣，因为它可以提高情感识别相对于孤立的单模态方法的整体准确性。最有效的多模态情绪识别技术有效地利用了多种互补的信息源，例如面部、声音和生理形态，以提供全面的特征表示。在本文中，我们专注于基于从视频中提取的面部和声音模态融合的维度情绪识别，其中可以捕获复杂的时空关系。大多数现有的融合技术依赖于循环网络或传统的注意机制，这些机制不能有效地利用视听 (A-V) 模态的互补性。我们引入了一种交叉注意融合方法来提取跨 A-V 模态的显着特征，从而可以准确预测效价和唤醒的连续值。我们新的交叉注意力 A-V 融合模型有效地利用了模态间关系。特别是，它计算交叉注意力权重以关注跨单个模态的更有贡献的特征，从而组合有贡献的特征表示，然后将其馈送到完全连接的层以预测效价和唤醒。所提出方法的有效性在来自 RECOLA 和疲劳（私有）数据集的视频上得到了实验验证。结果表明，我们的交叉注意力 A-V 融合模型是一种具有成本效益的方法，优于最先进的融合方法。代码可用：https://github.com/praveena2j/Cross-Attentional-AV-Fusion

主要贡献：（1）我们提出了一种基于互相关的交叉注意 A-V 融合模型，以有效地利用跨模态的互补关系进行维度情绪识别。 (2) 与先前的方法不同，我们利用 A-V 特征（模态间关系）之间的相互作用来获得维度情绪识别的补充表示。 (3) 对于概念验证，我们考虑使用 Inflated 3D CNN 模型 [14] 来有效地提取面部模态的时空特征，并结合 2D-CNN 模型从声谱图表示中提取 A 特征来表示声音模态。 RECOLA 和疲劳（私人）数据集的实验结果表明，我们提出的交叉注意 A-V 融合可以胜过用于维度情绪识别的最先进的融合模型。

方法

在本节中，我们介绍交叉注意力 A-V 融合模型，该模型提取面部和声音模态的互补特征，从而提供全面的表示以提高整体性能。 A. 视频中的视觉网络面部表情涉及视频序列的外观和时间动态。视频序列的空间和时间动态的有效建模在提取鲁棒特征方面起着至关重要的作用，这反过来又提高了整体系统性能。最先进的性能通常是使用 CNN 结合递归神经网络 (RNN) 来捕获有效的潜在外观表示以及时间动态 [26]。已经探索了几种基于 LSTM [27]、[28] 的维度情绪识别方法。然而，发现 3D-CNN 在捕捉视频中的时空动态方面非常有效。具体来说，我们考虑使用 Inflated 3D-CNN [14] 从视频序列中提取面部剪辑的时空特征。与传统的 3D CNN 相比，I3D 可以有效地捕获 V 模态的时空动态，同时使用比 3D CNN 更少的参数进行训练。此外，它有助于探索现有的预训练 2D-CNN，这些 2D-CNN 在许多具有面部表情的图像上进行训练，从而提高视频的空间辨别力。在提议的方法中，我们分别为面部模态训练了 I3D 模型（参见第 IV-B 节中的实现细节）。 B. 音频网络语音信号的副语言信息被发现具有传达一个人的情绪状态的重要信息。尽管使用传统的手工特征（如 MFCC、全局特征 [29]）广泛探索了使用语音的情感识别，但近年来随着 DL 模型的引入有了显着改进。发现频谱图携带与一个人的情感状态有关的重要的副语言信息 [30]，[31]。因此，在基于语音的情感识别的 DL 模型框架中使用了频谱图。在用于情感识别的文献中，已经使用各种 2D CNN 探索了频谱图 [32]、[33]。我们使用表 I 中所示的 A 网络（参见第 IV-B 节中的实现细节）。
C. 交叉注意力融合
A 和 V 模型分别进行了训练，并为 A 和 V 模态提取了深度特征。对于 A 和 V 模态，效价和唤醒的表现差异很大。由于 V 模态中丰富的基于外观的信息，它在描述序列的表达时传达了与效价相关的重要信息。音频信号携带与表情强度相关的重要信息，这在 A 信号的能量中得到有效体现。对于给定的视频序列，V 模态在某些视频剪辑中携带相关信息，而 A 模态可能与其他剪辑更相关。由于与单一模态相比，多种模态传达了不同的效价和唤醒信息，因此可以通过以互补方式融合 A 和 V 模态来有效地利用多种模态。为了可靠地融合这些模态以预测效价和唤醒，我们使用基于交叉注意的融合机制来有效地编码模态间信息，同时保留模态内特征。所提出模型的框图如图 1 所示。
令 Xa 和 Xv 表示给定视频序列 X 的 A 和 V 模态的深层特征，其中 Xa = (xla)Ll=1 和 Xv = (xlv)Ll=1。 L 表示 X 的子序列数，xla 和 xlv 分别表示视频序列 X 的第 l 个子序列的 A 和 V 特征向量。接下来，根据给定的视频序列计算子序列的 A 和 V 特征的互相关 X 捕捉跨模式的相关性。为了最小化模态之间的异质性，学习了一个可学习的权重矩阵 W ∈ RK×K，互相关计算为
Z = XTa WXv (1)
其中Z∈RL×L，W表示A和V特征之间的互相关权重，K表示A和V特征的特征维度。
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/974402