赞
踩
文献信息:
标题:CH-SIMS:中文多模态情感分析数据集与细粒度的模态注释
作者:Wenmeng Yu, Hua Xu, Fanyang Meng, Yilin Zhu, Yixiao Ma, Jiele Wu, Jiyun Zou, Kaicheng Yang
时间:2020.7
机构:北京清华大学计算机科学与技术系智能技术与系统国家重点实验室,北京国家信息科学与技术研究中心
会议:ACL
发布者:计算语言学协会
以往多模态情感分析的研究都是使用有限的数据集,这些数据集只包含统一的多模态注释。然而,统一的注释并不总是反映单一模态的独立情感,并且限制了模型对模态之间差异的捕捉。本文介绍了一个中文单模态和多模态情感分析数据集CH-SIMS,该数据集包含了2281个经过精炼的视频片段,同时具有多模态和独立的单模态注释。它允许研究人员研究模态之间的相互作用,或者使用独立的单模态注释进行单模态情感分析。此外,我们提出了一个基于后期融合的多任务学习框架作为基线。在CH-SIMS上的广泛实验表明,我们的方法达到了最先进的性能,并且可以学习到更多独特的单模态表示,完整的数据集和代码可在Github网站获得,以供使用
情感分析是自然语言处理(NLP)的一个重要研究领域。它在其他NLP任务中有着广泛的应用,如意见挖掘、对话生成和用户行为分析等。以往的研究(Pang等,2008;Liu和Zhang,2012)主要集中在文本情感分析上,并取得了令人印象深刻的成果。然而,仅使用文本不足以判断说话者的情感状态,文本可能会产生误导。随着短视频应用的蓬勃发展,引入了非语言行为(视觉和音频)来解决上述不足(Zadeh等,2016;Poria等,2017)
在多模态情感分析中,模态内表示和模态间融合是两个重要且具有挑战性的子任务(Baltrusaitis et al. , 2018; Guo et al. , 2019)。 对于模态内表示,必须考虑不同模态的时间或空间特征。基于卷积神经网络(CNN)、长短期记忆(LSTM)网络和深度神经网络(DNN)的方法是提取单模态特征的三种代表性方法(Cambria等,2017;Zadeh等,2017,2018a)。对于模态间融合,近年来提出了许多方法。例如,协整(concatenation)(Cambria等,2017)、张量融合网络(Tensor Fusion Network, TFN)(Zadeh等,2017)、低阶多模态融合(Lowrank Multimodal Fusion, LMF)(Liu等,2018)。记忆融合网络(Memory Fusion Network, MFN)(Zadeh等,2018a)、动态融合图(Dynamic Fusion Graph, DFG)(Zadeh等,2018b)等。在本文中,我们主要考虑先进行模态内表征学习,再采用模态间融合的后期融合方法。一个直观的想法是,模态间表征的差异越大,模态间融合的互补性越好。然而,现有的后期融合模型不容易学习不同模态之间的差异,进一步限制了融合的性能。原因在于,现有的多模态情感数据集只包含每个多模态片段的统一多模态标注,并不总是适合所有模态。换句话说,在模态内表征学习过程中,所有模态都共享一个标准注释。此外,这些统一的监督将引导模态内表征更加一致,减少差异性。
为了验证上述分析,本文提出了一个具有独立单模态注释的中文多模态情感分析数据集CH-SIMS。图1显示了我们提出的数据集与其他现有多模态数据集的标注差异实例。SIMS有2,281个精炼的视频片段,收集自不同电影、电视连续剧和综艺节目的自发表情、各种头部姿势、遮挡和照明。CHEAVD(Li等,2017)也是中国的多模态数据集,但它只包含两种模态(视觉和音频)和一个统一的注释。相比之下,SIMS除了每个片段的多模态标注外,还有三种模态和单模态标注。因此,研究人员可以利用SIMS来完成单模态和多模态的情感分析任务。此外,研究人员还可以利用这些额外的注释开发出多模态情感分析的新方法。
基于SIMS,我们提出了一个使用单模态和多模态标注的多模态多任务学习框架。在这个框架中,单模态和多模态任务共享底部的特征表示子网络。它适用于所有基于后期融合的多模态模型。然后,我们将TFN、LMF和Late-Fusion DNN(LFDNN)等三种晚期融合模型引入到我们的框架中。在单模态任务的情况下,多模态任务的性能显著提高。此外,我们对多模态情感分析、单模态情感分析和多任务学习做了详细的讨论。最后,我们验证了单模态标注的引入可以有效扩大不同模态之间的差异,在模态间融合中获得更好的性能。
在这项工作中,我们为多模态情感分析提供了一个新的视角。我们在本文中的主要贡献可以概括为以下几点:
在本节中,我们简要回顾了多模态数据集、多模态情感分析和多任务学习的相关工作。
为了满足多模态情感分析和情感识别的需求,研究者们提出了多种多模态数据集,包括IEMOCAP(Busso等,2008)、YouTube(Morency等,2011)、MOUD(Perez-Rosas等,2013)、ICT-MMMO(Wollmer等,2013)、MOSI(Zadeh等,2016)、CMU-MOSEI(Zadeh等,2018b)等。此外,Li等人(2017)提出了中文情感视听数据集,Poria等人(2018)提出了多方情感、对话数据集,每段对话包含两个以上的说话者。然而,这些现有的多模态数据集只包含每个多模态语料的统一多模态标注。相比之下,SIMS包含了单模态和多模态注释。
多模态情感分析已经成为整合语言行为和非语言行为的重要研究课题。Cambria等(2017)提出了一个通用的多模态情感分析框架,该框架由模态内的表征学习和模态间的特征连通组成。基于该框架,许多研究集中在设计新的融合网络,以捕获更好的多模态表征,实现更好的性能。Zadeh等(2017)提出了一种张量融合网络,通过计算单模态表示之间的外积获得新的张量表示。Liu et al.(2018)采用低阶多模态融合方法对权重张量进行分解,降低了基于张量方法的计算复杂性。Zadeh等(2018a)设计了一个具有特殊关注机制的记忆融合网络,用于跨视角交互。Tsai等(2019)提出了跨模态变换器,通过学习跨两个模态特征的注意力,从另一个源模态强化目标模态。Tsai等(2018)通过将表征因子化为两组独立因子:多模态辨别因子和模态特定生成因子,学习有意义的多模态表征。与上述方法不同,我们旨在通过引入独立的单模态注释来学习更有特色的单模态表征。
多任务学习旨在通过利用这些任务中包含的有用信息来提高多个相关任务的泛化性能(Zhang和Yang,2017)。一个经典的方法是,不同的任务共享前几层,然后在后续的几层中具有特定的任务参数(Liu等,2015;Zhang等,2016b)。基于这种方法,我们设计了一个多模态多任务学习框架,用于验证独立单模态标注的实用性和可行性。
在本节中,我们将介绍一个具有独立单模态注释的新型中文多模态情感分析数据集——CH-SIMS。在下面的小节中,我们将详细介绍数据获取、标注和特征提取的过程。
与单模态数据集相比,多模态数据集的要求相对较高。一个基本的要求是说话人的脸和声音必须同时出现在画面中,并在特定的时间段内保持。在这项工作中,为了获取尽可能贴近生活的视频片段,我们从电影、电视剧和综艺节目中收集目标片段。在获得原始视频后,我们使用视频编辑工具Adobe Premiere Pro,对目标片段进行帧级裁剪,虽然非常耗时,但足够准确。此外,在数据收集和裁剪的过程中,我们执行以下约束条件:
最后,我们收集了60个原始视频,获取了2281个视频片段。SIMS具有丰富的人物背景,年龄跨度大,质量高。表1为SIMS的基本统计(我们咨询了法律办公室,以验证很短长度视频的学术使用和分发是否属于合理使用类别)
我们对每个视频片段进行一次多模态标注和三次单模态标注。除了工作量的增加,不同模态之间的相互干扰也比较混乱。为了尽可能的避免这个问题,我们主张每个标注者在标注时只能看到当前模态的信息。此外,不允许同时进行四个标注。更准确的说,每个标注者先进行单模态标注,然后再进行多模态标注,其顺序是先文字,后音频,然后是无声视频,最后是多模态。
对于每个片段,每个注释者决定其情感状态为-1(消极)、0(中性)或1(积极),我们有五个独立的学生在这个领域进行注释。然后,为了同时完成回归和多分类任务,我们对五个标注结果进行平均。因此,最终的标注结果是{-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0}中的一个。我们又将这些数值分为5个分类:负值{-1.0,-0.8},弱负值{-0.6,-0.4,-0.2},中性{0.0},弱正值{0.2,0.4,0.6},正值{0.8,1.0}。
图2左边的直方图显示了情绪在整个数据集上的分布,四个注释。我们可以看到,负面片段比正面片段多。主要原因是影视剧中的演员在负面情绪上的表现力要比正面情绪强。图2右侧的混淆矩阵表示不同模态之间的注释差异,计算结果为:
D
i
j
=
1
N
∑
n
=
1
N
(
A
i
n
−
A
j
n
)
2
D_{i j}=\frac{1}{N} \sum_{n=1}^{N}\left(A_{i}^{n}-A_{j}^{n}\right)^{2}
Dij=N1n=1∑N(Ain−Ajn)2
其中
i
,
j
∈
{
m
,
t
,
a
,
v
}
i, j \in\{m, t, a, v\}
i,j∈{m,t,a,v},N是所有采样点的个数,
A
i
n
A_i^n
Ain代表在模型i中第
n
t
h
n_{th}
nth标签的值
从混淆矩阵可以看出,A和M之间的差异最小,V和T之间的差异最大,符合预期。因为音频包含文字信息,更接近于多模态,而视频和文字之间的联系是稀疏的。
此外,我们还提供了其他属性标注,包括说话人的年龄和性别。而我们在下面的实验中只使用感性标注。
所有模态的提取特征如下(我们在所有实验中都使用相同的基本特征):
Text: 所有视频都由人工转录,包括中文和英文版本。我们只使用中文转录。我们为每篇转录稿添加两个唯一的标记来表示开始和结束。而后,使用预先训练好的中文BERTbase词嵌入来从转录本中获得词向量(Devlin等,2018)。值得注意的是,由于BERT的特性,我们并没有使用单词分割工具。最终,每个词都被表示为768维的词向量。
Audio: 我们使用LibROSA(McFee等人,2015年)语音工具包,以默认参数提取22050Hz的声学特征。总共提取了33个维度的帧级声学特征,包括1维对数基频(log F0)、20维Melfrequency cepstral coefficients(MFCCs)和12维Constant-Q chromatogram(CQT)。根据(Li等,2018)这些特征与情绪和语气有关。
Vision: 以30Hz的频率从视频片段中提取帧。我们使用MTCNN人脸检测算法(Zhang等人,2016a)来提取对齐的人脸。然后,遵循Zadeh等人(2018b),我们使用MultiComp OpenFace2.0工具包(Baltrusaitis等人,2018)提取68个面部地标、17个面部动作单元、头部姿势、头部方向和眼睛注视的集合。最后,共提取了709个维度的帧级视觉特征。
在本节中,我们描述了我们提出的多模态多任务学习框架。如图3所示,基于后期融合的多模态学习框架(Cambria等人,2017;Zadeh等人,2017),我们为三个单模态表示增加了独立的输出单元:文本、音频和视觉。因此,这些单模态表征不仅参与特征融合,而且用于生成其预测性输出。
为了便于以下介绍,对于text,andio,vision,我们假设 L u , D i u , D r u L^u, D_i^u, D_r^u Lu,Diu,Dru其中 u ∈ t , a , v u \in {t, a, v} u∈t,a,v,代表句子长度,通过3.3提取的初始特征维度,以及单维特征提取器分别学习的表示维数,batch size为B
单模态子网旨在从初始特征序列中学习模态内表示。一个通用特征提取器可以形式化为:
R
u
=
S
u
(
I
u
)
R_{u}=S_{u}\left(I_{u}\right)
Ru=Su(Iu)
其中:
I
u
∈
R
B
×
L
u
×
D
i
u
,
R
u
∈
R
B
×
D
r
u
.
S
u
(
∙
)
I_{u} \in R^{B \times L^{u} \times D_{i}^{u}}, R_{u} \in R^{B \times D_{r}^{u}} . S_{u}(\bullet)
Iu∈RB×Lu×Diu,Ru∈RB×Dru.Su(∙) 是模态u的特征提取器网络。
在这项工作中,继Zadeh等人(2017);Liu等人(2018)之后,我们使用长短期记忆(LSTM)(Hochreiter和Schmidhuber,1997)网络、具有三个隐藏层权重 W a W_a Wa的深度神经网络和具有三个隐藏层权重 W v W_v Wv的深度神经网络分别提取文本、声学和视觉嵌入。
特征融合网络的目的是学习三种单模态表征的模态间表征,公式为:
R
m
=
F
(
R
t
,
R
a
,
R
v
)
R_{m}=F\left(R_{t}, R_a, R_v\right)
Rm=F(Rt,Ra,Rv)
其中:
R
t
,
R
a
,
R
v
∈
R
B
×
D
r
u
R_{t}, R_a, R_v\in{R^{B \times D_{r}^{u}}}
Rt,Ra,Rv∈RB×Dru是单模态表示,
F
(
∙
)
F(\bullet)
F(∙)是特征融合网络,
R
m
R_m
Rm是融合表示。
在这项工作中,为了与现有工作进行全面比较,我们尝试了三种融合方法:LF-DNN,TFN(Zadeh等人,2017)和LMF(Liu等人,2018)。
除了在不同任务中的训练损失外,我们通过L2规范对共享参数进行稀疏化,目的是选择模态内特征。因此,我们的优化目标是:
min
1
N
t
∑
n
=
1
N
t
∑
i
α
i
L
(
y
i
n
,
y
^
i
n
)
+
∑
j
β
j
∥
W
j
∥
2
2
\min \frac{1}{N_{t}} \sum_{n=1}^{N_{t}} \sum_{i} \alpha_{i} L\left(y_{i}^{n}, \hat{y}_{i}^{n}\right)+\sum_{j} \beta_{j}\left\|W_{j}\right\|_{2}^{2}
minNt1n=1∑Nti∑αiL(yin,y^in)+j∑βj∥Wj∥22
其中 N t N_{t} Nt是训练采样点的个数, i ∈ { m , t , a , v } , j ∈ { t , a , v } i \in\{m,t,a,v\}, j\in\{t,a,v\} i∈{m,t,a,v},j∈{t,a,v}。 L ( y i n , y ^ i n ) L\left(y_{i}^{n}, \hat{y}_{i}^{n}\right) L(yin,y^in)表示模态i中第n个样本的训练损失, W j W_j Wj是模态j和多模态任务中的共享参数, α i \alpha_{i} αi是平衡不同任务的超参数, β j \beta_{j} βj代表子网j的权重衰减步数。
最后,我们使用三层DNN来生成不同任务的输出。在这项工作中,我们将这些任务视为回归模型,并将L1损失作为公式4中的训练损失。
在本节中,我们主要探讨使用SIMS的以下问题:
在本节中,我们简要回顾一下以下实验中使用的基准:
在本节中,我们将详细介绍我们的实验设置,包括数据集分割、超参数选择和我们的评估指标。
超参数选择:由于不同段的序列长度不同,因此有必要针对具体模态固定序列长度。根据经验,我们选择平均长度加上3倍标准差作为序列的最大长度。此外,对于所有的基线和我们的方法,我们使用具有二元分类精度的网格搜索调整其超参数。为了公平比较,在每次实验中,我们选择五个相同的随机种子(1,12,1234,1234和12345),并报告五次的平均性能。
评价指标:与Liu等人(2018);Zadeh等人(2018b)相同,我们以两种形式记录实验结果:多类分类和回归。对于多类分类,我们报告加权F1得分和多类精度Acc-k,其中k∈{2,3,5}。对于回归,我们报告平均绝对误差(MAE)和皮尔逊相关(Corr)。除了MAE之外,所有指标的数值越高表示性能越好。
在本节中,我们介绍并讨论第5节中介绍的研究问题的实验结果。
我们将三种新方法与上述基准进行比较。 在这一部分中,我们仅考虑多模态评价结果虽然新方法是多任务。结果如表2所示。与单任务模型相比,多任务模型在大部分评价指标上有更好的表现。特别是在除Acc-5以外的所有评价指标中,三种改进模型(MLF-DNN、MLFM和MTFN)与相应的原始模型(LF-DNN、LFM和TFN)相比都有明显的提升。以上结果表明,在多模态情感分析中引入独立的单模态标注,可以显著提高现有方法的性能。同时,我们也发现,一些方法,如MULT,在现有的公共数据集上表现良好,而在SIMS上的表现并不理想。这进一步说明,设计一个稳健的、跨语言的多模态情感分析模型仍然是一项具有挑战性的任务,这也是我们提出这个数据集的动机之一。
由于SIMS中独立的单模态标注,我们进行了两组单模态情感分析的实验。在第一组实验中,我们使用真实的单模态标签来验证模型进行单模态情感分析的能力。在第二组实验中,我们使用多模态标签代替单模态标签,来验证在只有单模态信息的情况下,预测说话人真实情绪的能力。
结果如表4所示。首先,在同样的单模态任务中,单模态标签下的结果优于多模态标签下的结果。但前者不能反映说话者的实际情感状态。其次,在多模态标注下,仅使用单模态信息的表现低于使用多模态信息的表2。因此,由于单模态信息的固有局限性,仅使用单模态信息进行情感分析是不够的。
我们提出CH-SIMS的另一个动机是,我们认为独立的单模态标注的单模态表征差异会更大。我们使用t-SNE(Maaten和Hinton,2008)来可视化原始模型(LF-DNN、TFN和LMF)和新模型(MLF-DN、MTFN和MLMF)学习的模态内表征,如图4所示。比较明显的是,新模型学习到的单模态表征与原始模型相比更有特色。因此,单模态标注可以帮助模型获得更多的差异化信息,提高模态间的互补性。
在本节中,我们比较了结合不同单模态任务对多模态情感分析的影响差异。我们旨在进一步探讨不同单模态任务对多模态情感分析的影响。此外,我们还揭示了多任务学习与多模态情感分析之间的关系。
我们进行了多个组合实验来分析不同的单模子任务对主多模任务的影响。在这部分,我们只报告MLF-DNN中的结果。结果如表5所示。结果表明,在三个单模子任务部分缺失的情况下,多模态任务的性能并没有明显的提高,甚至有所损伤。在多模态学习中,有两个因素可能会造成不良影响,包括不同单模态表征之间的一致性和不同任务中学习的不同步性。前者意味着统一注释引导的表征是相似的,在不同模态中缺乏互补性。后者意味着不同任务中的学习过程是不一致的。以任务 "M,A "为例,子任务 "A "的子网络是由多模态损失和单模态损失监督的,而子任务 "T "和子任务 "V "则是由其单模态损失监督的。而子任务 "T "和子任务 "V "则只受其单模态损失的监督。这意味着 "A "被学习了两次,而 "T "和 "V "在一个训练周期内只被学习一次。因此,单模态任务的引入会降低表征的一致性,加强互补性,但也会造成不同步。随着更多单模态任务的引入,前者的正效应逐渐增加,后者的负效应逐渐减少。最后,当所有单模任务都加入时,后者的负效应几乎不存在了。最后,模型在 "M、T、A、V "任务下的表现达到一个峰值。
在本文中,我们提出了一个具有独立单模态标注的新型中文多模态情感分析数据集和一个基于后期融合方法的多模态多任务学习框架。我们希望CH-SIMS的引入能够为多模态分析的研究提供一个新的视角。此外,我们对单模态、多模态和多任务学习进行了广泛的实验讨论。最后,我们将我们的总体研究结果总结如下:
未来,我们将进一步探索多模态分析与多任务学习之间的联系,并加入更多的融合策略,包括早、中融合
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。