小丑西瓜9

这个屌丝很懒，什么也没留下！

热门标签

用于情感识别的多模态端到端稀疏模型（Multimodal End-to-End Sparse Model for Emotion Recognition）_情感识别训练好的模型

作者：小丑西瓜9 | 2024-04-01 16:47:23

踩

情感识别训练好的模型

用于情感识别的多模态端到端稀疏模型（Multimodal End-to-End Sparse Model for Emotion Recognition）

香港科技大学电子及计算机工程系人工智能研究中心，香港清水湾

非端到端 传统机器学习的流程往往由多个独立的模块组成，比如在一个典型的自然语言处理（Natural Language Processing）问题中，包括分词、词性标注、句法分析、语义分析等多个独立步骤，每个步骤是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果，这是非端到端的。

端到端 从输入端到输出端会得到一个预测结果，将预测结果和真实结果进行比较得到误差，将误差反向传播到网络的各个层之中，调整网络的权重和参数直到模型收敛或者达到预期的效果为止，中间所有的操作都包含在神经网络内部，不再分成多个模块处理。由原始数据输入，到结果输出，从输入端到输出端，中间的神经网络自成一体（也可以当做黑盒子看待），这是端到端的。

两者相比，端到端的学习省去了在每一个独立学习任务执行之前所做的数据标注，为样本做标注的代价是昂贵的、易出错的。

摘要

现有的关于多模态情感计算任务 (例如情感识别) 的工作通常采用两阶段流水线，首先使用手工算法为每个单一模态提取特征表示，然后使用提取的特征进行端到端学习。（缺点）但是，提取的特征是固定的，不能在不同的目标任务上进一步微调，手动寻找特征提取算法不能很好地推广或扩展到不同的任务，这会导致性能次优。在本文中，我们开发了一个完全的端到端模型，该模型将两个阶段连接起来并共同优化它们。此外，我们重组了当前的数据集，以实现完全的端到端培训。此外，为了减少端到端模型带来的计算开销，我们引入了用于特征提取的稀疏交叉模态注意机制。实验结果表明，我们的完全端到端模型大大超过了基于两相管道的当前最新模型。此外，通过添加稀疏的交叉模态注意，我们的模型可以在特征提取部分使用大约一半的计算量来保持性能。

1.引言

人类不仅通过他们使用的单词，而且通过他们说话的方式和面部表情来展示他们的特征。因此，在多模式情感计算任务中，例如情感识别，通常有三种模式: 文本，声音和视觉。这些任务中的主要挑战之一是如何对不同模式之间的相互作用进行建模，因为它们包含补充和补充信息 (baltru š aitis等人，2018)。

在现有的工作中，我们发现通常使用双相管道 (Zadeh等人，2018a，b; Tsai等人，2018，2019; Rahman等人，2020)。在第一阶段中，给定原始输入数据，使用手工制作的算法分别为每个模态提取特征表示，而在第二阶段中，使用提取的特征执行端到端多模态学习。但该两相流水线存在三大缺陷: 1) 提取后特征固定，无法对目标任务进行进一步微调; 2) 针对不同的目标任务需要人工寻找合适的特征提取算法；3) 手工制作的模型考虑了很少的数据点来表示更高级别的特征，这可能无法捕获所有有用的信息。这些缺陷会导致次优的性能。

在本文中，我们提出了一种完全的端到端模型，该模型将两个阶段连接在一起并共同优化它们。换句话说，模型接收原始输入数据并产生输出预测，这允许通过端到端训练自动学习特征。

但是，当前用于多模式情绪识别的数据集不能直接用于完全的端到端训练，因此我们进行了数据重组以使这种训练成为可能。端到端训练带来的好处是在特定的目标任务上对特征进行了优化，不需要手动选择特征提取算法。尽管端到端培训具有优势，但与两相管道相比，它确实带来了更多的计算开销，并且详尽地处理所有数据点使其计算成本高昂，并且容易出现过拟合。因此，为了减轻这些副作用，我们还提出了一种多模态端到端稀疏模型，即稀疏交叉模态注意机制和稀疏卷积神经网络 (CNN) 的组合 (Graham和van der Maaten，2017)，为任务选择最相关的功能，并减少视频和音频中的冗余信息和噪声。

实验结果表明，简单的端到端训练模型能够始终优于基于两相管道的现有最新模型。此外，稀疏交叉模态注意和稀疏CNN的结合能够大大降低计算成本并保持性能。

我们将我们的贡献总结如下：

1、据我们所知，我们是第一个将完全端到端的可训练模型应用于多模式情感识别任务的公司。

2、我们重组了现有的多模式情绪识别数据集，以基于原始数据进行端到端训练和跨模式关注。

3、我们证明了完全端到端训练的性能明显优于当前最先进的两阶段模型，并且所提出的稀疏模型可以在保持端到端训练性能的同时大大降低计算开销。我们还进行了深入的分析和案例研究，以提高我们方法的可解释性。

2.相关工作

近年来，有一种趋势是利用多模态信息来解决这些研究任务，例如情感识别 (Busso等人，2008) 、情感分析 (Zadeh等人，2016，2018b) 、人格特质识别 (Nojavanasghari等人，2016) 等，引起了越来越多的关注。已经提出了不同的方法来提高性能和交叉交互。在早期的作品中，模式的早期融合 (Morency等人，2011; Pérez-Rosas等人，2013) 和晚期融合 (Zadeh等人，2016; Wang等人，2017) 被广泛采用。后来，提出了更复杂的方法。例如，Zadeh等人 (2017) 引入了张量融合网络，以通过执行笛卡尔积来模拟三种模态的相互作用，而 (Wang等人，2019) 使用注意门来使用视觉和声学特征来移动单词。此外，基于变压器 (Vaswani等人，2017)，Tsai等人 (2019) 引入了多模态Transformer，在未对准多模态数据的情况下提高性能，，和Rahman等人 (2020) 引入了多模态适应门，以将视觉和声学信息集成到大型预训练语言模型中。然而，与使用完全端到端学习的其他一些多模态任务 (Chen等人，2017; Yu等人，2019; Li等人，2019) 不同，所有这些方法都需要使用手工算法的特征提取阶段 (详细信息在第5.2节中)，这使得整个方法成为一个两个管道。

3.数据集重组

完全端到端的多模态模型要求输入必须是三种模态 (视觉，文本和声学) 的原始数据。由于两个主要原因，现有的多模式情绪识别数据集无法直接应用于完全的端到端训练。 （1）首先，数据集提供了手工制作的特征的训练，验证和测试一下数据的拆分，作为模型的输入，情感或情感标签作为模型的输出。但是，由于无法将拆分的索引匹配回原始数据，因此无法将此数据集拆分直接映射到原始数据。（2）其次，数据样本的标签与文本模态对齐。但是，视觉和声学模态与原始数据中的文本模态不一致，这将禁用完全的端到端培训。为了使现有数据集可用于完全的端到端培训和评估，我们需要根据两个步骤对其进行重组: 1) 对齐文本，视觉和声学模态; 2) 将对齐的数据分为训练集，验证集和测试集。

在这项工作中，我们重组了两个情感识别数据集: 交互式情感二元运动捕获 (IEMOCAP) 和CMU多模式意见情感和情感强度 (CMUMOSEI)。两者都具有多类和多标记数据，用于通过生成原始话语级数据，对齐三种模态并在对齐的数据上创建新的拆分来获得多模式情绪识别。在接下来的部分中，我们将首先介绍现有的数据集，然后我们将详细描述如何重组它们。

3.1 IEMOCAP

IEMOCAP (Busso等人，2008) 是包含151视频的多模式情感识别数据集。在每个视频中，两名专业演员用英语进行二元对话。数据集被标记为九个情绪类别，但由于数据不平衡问题，我们采取六个主要类别: 愤怒、快乐、兴奋、悲伤、沮丧和中立。由于对话在话语级别进行注释，因此我们从提供的文本转录时间中剪切每个话语的数据，从而总共产生7,380个数据样本。每个数据样本由三种模式组成: 采样率为16 kHz的音频数据，文本转录本以及以30Hz从视频中采样的图像帧。所提供的来自现有工作的预处理数据 (Busso等人，2008) 1没有为每个数据样本提供标识符，这使得不可能从原始数据中再现它。为了解决这个问题，我们通过将数据的70% 、10% 和20% 分别随机分配到训练集、验证集和测试集来为数据集创建新的拆分。我们数据集分割的统计数据如表1所示。

3.2 CMU-MOSEI

CMU-MOSEI (Zadeh等人，2018b) 包括来自1,000个不同演讲者的3,837个视频，具有六个情感类别: 快乐，悲伤，愤怒，恐惧，厌恶和惊讶。它在utterancelevel进行注释，共有23,259个样本。CMU-MOSEI中的采样由三种模式组成: 采样率为44.1 kHz的音频数据，文本转录本和以30Hz从视频采样的图像帧。我们从可公开访问的原始CMU-MOSEI数据集生成话语级数据。生成的话语与来自现有工作的预处理数据完美匹配 (Zadeh等人，2018b)，但是现有数据集存在两个问题: 1) 包括许多未对齐的数据样本; 以及2) 生成的数据中不存在许多样本，反之亦然，在提供的标准拆分从CMU多模式SDK。为了应对第一个问题，我们执行数据清理以删除未对齐的样本，这总共导致20,477个片段。然后，我们在为情感分类任务进行CMUMOSEI拆分之后创建一个新的数据集拆分。新数据集分割设置的统计信息如表2所示。

4.方法

4.1 问题定义

我们将I多模态数据样本定义为X = {(ti，ai，vi)}I i = 1，其中ti是单词序列，ai是来自音频的频谱图块序列，vi是来自视频的RGB图像帧序列。Y = {yi}I i = 1表示每个数据样本的注释。

4.2 完全端到端多模态建模

我们建立了一个完全的端到端模型，该模型共同优化了两个独立的阶段 (特征提取和多峰建模)。

对于视觉和声学模态中的每个频谱图块和图像帧，我们首先使用预先训练的CNN模型 (11层VGG (Simonyan和Zisserman，2014) 模型) 来提取输入特征，然后使用线性变换将其展平为矢量表示。之后，我们可以获得视觉和声学模态的表示序列。然后，我们使用变压器 (Vaswani等人，2017) 模型来编码顺序表示，因为它包含位置嵌入来建模时间信息。最后，我们在 “CLS” 令牌处获取输出向量，并应用前馈网络 (FFN) 来获得分类分数。

此外，为了减少GPU内存并与从人脸提取视觉特征的两相基线对齐，我们使用MTCNN (Zhang等人，2016) 模型来获得图像帧的人脸位置，然后将它们馈送到VGG中。对于文本情态，Transformer模型直接用于处理单词序列。与视觉和声学模态类似，我们将 “CLS” 令牌处的特征视为输出特征，并将其馈送到FFN中以生成分类分数。我们对每个模态的分类得分进行加权求和，以得出最终的预测得分。

4.3多模态端到端稀疏模型

尽管完全端到端模型比两相管道具有许多优势，但它也带来了很多计算开销。为了在不降低性能的情况下减少这种开销，我们引入了多模式端到端稀疏模型 (MESM)。图2显示了MESM的整体架构。与完全端到端模型相反，我们用N个跨模态稀疏CNN块替换了原始的CNN层 (用于低级特征捕获的第一个层除外)。跨模态稀疏CNN块由两部分组成，一个跨模态注意层和一个稀疏CNN模型，该模型包含两个稀疏VGG层和一个稀疏最大池化层。

4.3.1跨模态注意层

跨模态注意层接受两个输入: 查询向量q ∈ Rd和特征图M ∈ rc × S × H × W的堆栈，其中C，S，H和W分别是通道数，序列长度，高度和宽度。然后，使用查询向量在特征贴图上执行跨模式空间关注。可以通过以下步骤对跨模态空间注意进行公式化:

其中Wm ∈ Rk × c、Wq ∈ Rk × d、Wi ∈ Rk是线性变换权值，bm ∈ Rk和bi ∈ R1是偏值，其中k是预先定义的超参数，而⊕表示一个张量和一个向量的广播加法运算。在Eq.2中，将softmax函数应用于 (H × w) 维度，Mi ∈ rs × H × w是对应于每个特征图的空间注意力得分的张量。最后，为了使输入特征图M稀疏，同时保留重要信息，首先，我们进行核采样 (Holtzman等人，2019) 在Mi上获取每个注意分数映射中概率质量的top-p部分 (p是在 (0,1] 范围内的预定义超参数)。在Mns中，核采样选择的点设置为1，其他点设置为零。然后，我们在Mns和M之间进行广播逐点乘法以生成输出Mo。因此，Mo是稀疏张量，某些位置为零，稀疏度由p控制。

4.3.2稀疏的CNN

我们在交叉模态注意层之后使用子流形稀疏CNN (Graham和van der Maaten，2017)。它可用于处理位于较高维空间中的低维数据。在多模态情绪识别任务中，我们假设只有部分数据与情绪的识别有关 (图1中给出了一个直观的示例)，这使其与稀疏设置保持一致。在我们的模型中，稀疏的CNN层接受来自交叉关注层的输出，并且仅在活动位置进行卷积计算。从理论上讲，就单个位置的计算量 (FLOPs) 而言，标准卷积要花费z2mn FLOPs，稀疏卷积要花费amn FLOPs，其中z是内核大小，m是输入通道数，n是输出通道数，a是这个位置的活跃点的数量。因此，考虑到所有位置和所有层，稀疏的CNN可以帮助大大减少计算量。

5实验

5.1评价指标

在先前的工作 (Tsai等人，2018; Wang等人，2019; Tsai等人，2019; Dai等人，2020a) 之后，我们使用准确性和F1-score来评估IEMOCAP数据集上的模型。在CMUMOSEI数据集上，我们使用加权精度而不是标准精度。此外，根据Dai等人 (2020a)，我们使用标准二进制F1而不是加权版本。

加权精度

与现有作品类似 (Zadeh等人，2018b; Akhtar等人，2019)，我们使用加权精度 (WAcc) (Tong等人，2017) 来评估CMU-MOSEI数据集，该数据集包含比每个情绪类别的阳性样本更多的阴性样本。如果使用正常的准确性，当预测所有样本为负时，模型仍将获得良好的分数。加权精度的公式为

其中P表示总正，TP真正，N总负，TN真负。

5.2基线

对于我们的基线，我们使用两阶段管道，该管道由特征提取步骤和端到端学习步骤组成。

特征提取

我们遵循先前作品中的特征提取过程 (Zadeh等人，2018b; Tsai等人，2018，2019; Rahman等人，2020)。对于视觉数据，我们使用OpenFace library5 (baltru š aitis等人，2015; Baltrusaitis等人，2018) 为视频中的图像帧提取35个面部动作单元 (fau)，其捕获面部肌肉的运动 (Ekman等人，1980)。对于声学数据，我们从18个语音类别中提取了总共142个维度的特征，包括12个维度的树皮带能量 (BBE) 特征，22个维度的梅尔频率倒谱系数 (MFCC) 特征和108个统计特征。我们使用disvoicelibrary6 (Vásquez-Correa等人，2018，2019) 提取每400毫秒时间帧的特征。

对于文本数据，我们使用预先训练的手套 (Pennington等人，2014) 单词嵌入 (glove.840b.300d7)。

多模态学习

由于数据中的不同模态未对齐，因此我们无法将我们的方法与只能处理对齐输入数据的现有工作进行比较。我们使用四个多模态学习模型作为基线: 晚期融合LSTM (lf-lstm) 模型、晚期融合变压器 (lf-trans) 模型、情感嵌入 (EmoEmbs) 模型 (Dai等人，2020a) 和多模态变压器 (MulT) 模型 (Tsai等人，2019)。他们接收从第一步提取的手工制作的特征作为输入，并给出分类决策。

5.3 训练详情

在附录A中报告。我们的实验在Nvidia 1080Ti GPU上运行，并且我们的代码在PyTorch (Paszke等人，2019) 框架v1.6.0中实现。我们对文本和音频模态进行预处理。对于文本模态，我们对基线执行单词标记，对端到端模型执行子单词标记。我们将文本的长度限制为最多50个令牌。对于音频模态，我们使用窗口大小为25 ms，步幅为12.5 ms的mel频谱图，然后每400 ms时间窗口分块频谱图。

6 分析

6.1结果分析

在表3中，我们显示了IEMOCAP数据集上的结果。与基线相比，完全端到端 (FE2E) 模型在所有评估指标上都大大超过了基线。从经验上讲，这表明FE2E模型优于两相管道。此外，我们的MESM与FE2E模型实现了可比的结果，同时在特征提取中需要更少的计算。在这里，我们仅显示具有最佳p值的核采样的MESM的结果。在第6.3节中，我们对top-p值的影响进行了更详细的讨论。我们进一步评估CMU-MOSEI数据集上的方法，结果如表4所示。我们在这个数据集上观察到类似的趋势。

6.2 案例研究

为了提高可解释性并从我们的模型中获得更多的见解，我们将稀疏的跨模式注意机制的注意图可视化在六种基本情绪上: 快乐，悲伤，愤怒，惊讶，恐惧和厌恶。如图3所示，通常，模型关注几个感兴趣的区域，例如嘴，眼睛，眉毛和嘴与眼睛之间的面部肌肉。我们通过比较我们的模型基于面部动作编码系统 (FACS) (Ekman，1997) 捕获的区域来验证我们的方法。在将FACS映射到人类情感类别 (Basori，2016; Ahn和Chung，2017) 之后，我们进行了实证分析，以验证每个情感类别上的稀疏交叉模式注意。例如，情绪快乐在很大程度上受到两端嘴唇抬高的影响，而悲伤与两端嘴唇降低和眼睑向下移动有关。愤怒是由眼睛和稀疏的嘴唇之间缩小的间隙确定的，而惊讶的是张开嘴巴并抬起眉毛和眼睑。恐惧的表现是眉毛和上眼睑的上升，以及张开的嘴，嘴唇的末端略微向脸颊移动。对于厌恶情绪的人，鼻子附近的皱纹和上唇区域的运动是决定因素。

基于图3中视觉数据上的注意力图的可视化，MESM可以捕获六个情感类别的大多数指定感兴趣区域。对于情绪愤怒，稀疏的交叉模式注意力可以很好地从嘴唇区域检索特征，但有时无法捕捉到眼睛之间的间隙。对于惊讶，MESM可以成功捕获眼睑和嘴部区域，但有时模型无法考虑眉毛区域。对于声学方式，很难从情感标签的角度来分析注意力。我们在图4中显示了音频数据上注意力图的一般可视化。该模型关注早期注意层中频谱值较高的区域，经过进一步的跨模态注意层后过滤掉更多的点。附录b中提供了更多可视化示例。

6.3 核采样的影响

为了深入了解核采样对MESM的影响，我们使用从0到1的不同top-p值进行了更多的实验，步骤为0.1。如图5所示，根据经验，计算量随着top-p值的减小而一致地减少。在性能方面，从0.9到0.5的p值最高，评估性能没有显着下降。从0.5到0.1，我们可以看到性能明显下降，这意味着排除了一些识别情绪的有用信息。这条弯头形趋势线的拐点可以作为一个指标，帮助我们对top-p的值做出决定。具体地，在0.5的top-p的情况下，MESM可以实现与FE2E模型相当的性能，其中在特征提取中具有大约一半的触发器。

7 消融研究

我们进行了一项全面的消融研究，以进一步研究模型在不存在一种或多种模式时的表现。结果如表5所示。首先，我们观察到，模式越多，性能的提高就越大。TAV代表所有三种模式的存在，导致两种模型的最佳性能，这表明拥有更多模式的有效性。其次，在只有单一模态的情况下，文本模态的性能优于其他两种模态，这与以前的多模态作品的结果相似。这种现象进一步验证了在我们的交叉注意力机制中使用文本 (T) 来关注声学 (A) 和视觉 (V) 是一种合理的选择。最后，通过两种模态，MESM仍然可以达到与FE2E模型相当的性能，甚至可以略好一些。

8 结论和今后的工作

在本文中，我们首先比较和对比了多模态情感识别任务的两相管道和完全端到端 (FE2E) 建模。然后，我们提出了新颖的多模式端到端稀疏模型 (MESM)，以减少完全端到端模型带来的计算开销。此外，我们重组了两个现有数据集，以实现完全的端到端培训。实证结果表明，FE2E模型在特征学习方面具有优势，并且超过了基于两相管道的当前最新模型。此外，与FE2E相比，MESM能够将特征提取部分的计算量减半，同时保持其性能。在我们的案例研究中，我们在视觉和声学数据上提供了跨模注意图的可视化。结果表明，我们的方法是可以解释的，并且跨模式注意可以成功地根据不同的情感类别选择重要的特征点。对于未来的工作，我们认为将更多的模态纳入稀疏交叉模态注意机制是值得探索的，因为它可能会增强稀疏性 (特征选择) 的鲁棒性。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/349625

用于情感识别的多模态端到端稀疏模型（Multimodal End-to-End Sparse Model for Emotion Recognition）_情感识别 训练好的模型