当前位置:   article > 正文

融合情感轮注意力的情感分布学习_普鲁契克情感色轮

普鲁契克情感色轮

摘 要

情感分布学习是一种近年提出的有效的多情绪分析模型,其核心思路是通过情感分布记录示例在各个情绪上的表达程度,适于处理存在情绪模糊性的情感分析任务

针对现有的情感分布学习方法较少考虑情感心理学先验知识的问题,提出一种基于情感轮注意力的情感分布学习(emotion wheel attention based emotion distributionlearning,EWA-EDL)模型。EWA-EDL模型为每种基本情绪生成一个描述情绪心理学相关性的先验情感分布,再通过注意力机制将基于情感轮的先验知识直接融入深度神经网络。EWA-EDL模型采用端到端的方式对深度网络进行训练,同时学习情感分布预测和情绪分类任务。EWA-EDL模型主要由5部分构成,分别为输入层、卷积层、池化层、注意力层和多任务损失层。

在8个常用的文本情感数据集上的对比实验表明,EWA-EDL模型情感分布预测和情绪分类任务上的性能均优于对比的情感分布学习方法

引言

人类情感是一个复杂的现象,各种基本情绪之间高度相互关联,呈现出正相关性或负相关性。正相关的情绪更有可能同时发生,负相关的情绪则很少一起出现 [9] 。

传统的情绪识别模型,大部分基于单标记学习(singlelabel learning)或多标记学习(multi-label learning),为示例关联一个或多个情绪标签,不能定量地分析具有不同表达强度的多种情绪 [5] 。为了解决这一问题,Zhou等人于2015年在面部表情识别任务中首次提出情感分布学习(emotion distribution learning,EDL)[6] 。EDL借鉴标记分布学习(label distribution learning,LDL)的研究思路,认为文本和图像等媒介表达的情感是多种基本情绪的混合,各种基本情绪在同一示例上具有不同的表达强度。示例的各个基本情绪的表达强度介于0和1之间,所有基本情绪的表达程度之和为1。所有基本情绪在某个示例上的表达程度共同构成一个情感分布(emotion distribution)[6] 。

1 相关工作

为了定量地处理一个示例同时表达多种强度不同的情绪的情况,Zhou等人 [6] 借鉴标记分布学习(LDL)[5]的研究思路,于 2015年提出情感分布学习(EDL)。此后,Zhou等人 [13] 于 2016 年提出面向文本的 EDL 方法。一个句子可能表达一种或多种情绪,每种情绪的表达强度不同。

情感分布学习可以有效地处理一个示例同时表达多种情绪的问题,适用于存在情绪模糊性的任务 [6] 。近年来,许多学者在EDL领域提出了多个有效的研究工作 [10-14] 。按照是否考虑情绪标签间相关性的角度划分,现有的EDL工作可以分为如下三大类:

不考虑情绪标签相关性的方法。早期的大部分EDL 工作不考虑情绪标签间的相关性,例如 Zhou 等人 [13] 使用最大熵模型从句子文本直接预测情感分布,没有考虑情绪的相关性;Zhang等人 [22] 提出基于多任务卷积神经网络(multi-task convolutional neural network,MT-CNN)的EDL模型,同时优化情感分布预测和情绪分类任务;Li等人 [23] 将单词与具有定量强度的细粒度情感标签联系起来,提出了一种结合领域知识和维度词典来生成词级情感分布向量的新方法。
从训练数据学习标签相关性的方法。此类方法是当前EDL方法的一个热门研究方向。Jia等人 [10] 在人脸表情识别任务上挖掘数据中的局部标签相关性进行情感分布学习;Fei等人 [14] 提出一种潜在情感记忆网络学习数据中潜在的情感分布,并将其有效地利用到分类网络中;Xu和Wang [11] 提出一种基于注意力机制的情感分布学习方法,取得图像的各个区域与情感分布之间的关系。
通过引入外部先验知识考虑标签相关性的方法。此类方法利用心理学情感先验知识,考虑情绪标签间的相关性,以提升情绪识别模型的泛化性能。目前考虑情感先验知识的EDL工作还比较少,He和Jin [12] 提出一种基于情感轮心理学模型的情绪图卷积网络的EDL方法(EmotionGCN)。EmotionGCN 主要由两部分组成:用于提取图像特征的 CNN 模块和考虑先验知识的基于GCN的权重生成器。

2 基于情感轮注意力的情感分布学习

2.1 普鲁契克情感轮

罗伯特·普鲁契克于1980年提出的情感轮理论,是一种从心理学角度描述人类情绪间相互关系的经典模型 [15] 。普鲁契克情感轮(Plutchik’s wheel of emotions)包含愤怒(anger)、厌恶(disgust)、悲伤(sadness)、惊讶(surprise)、恐惧(fear)、信任(trust)、高兴(joy)和期待(expect)8 种基本情绪。如图2所示,8种基本情绪在情感轮中分为4组对立的情绪,对角位置的情绪具有负相关性,位置相邻的情绪具有正相关性。

按照情绪在情感轮中的间隔角度的大小,定义情绪之间的心理学距离。两种情绪每间隔45°,距离定义为1。两种情绪的间隔角度越小,其心理学距离越小,情绪相似性越高。如图2所示,高兴和信任是相邻情绪,间隔角度为45°,距离定义为1;期待和惊讶是对立情绪,间隔角度为180°,距离设定为4 

2.2 基于普鲁契克情感轮注意力的情感分布学习

本研究将注意力机制引入基于普鲁契克情感轮的心理学先验知识,采用多任务深度卷积神经网络,提出基于情感轮注意力的情感分布学习(EWA-EDL)模型。EWA-EDL模型的构架如图所示。

给定一个由 N 条句子构成的文本训练集 S=\left \{ {(s_{i},d_{i})}\right \}_{i=1}^{N},其中 d_{i}=\left \{ d_{i}^{j} \right \}_{j=1}^{C}是句子s_{i} 对应的情感分布, d_{i}^{j} 表示第 j 种情绪在句子s_{i}上的表达程度,d_{i}^{j} ∈[ ] 0,1 且 \sum_{j}d_{i}^{j}=1

EWA-EDL 的建模目标是学习到一个从句子 s_{i} 到情感分布 d_{i}的映射。EWA-EDL同时优化两个训练任务,分别为情感分布预测和情绪分类。EWA-EDL的模型构架由5部分组成,分别为输入层、卷积层、池化层、注意力层和多任务损失层.

输入层:EWA-EDL模型的输入是由 M 个单词构成的句子 s=(w_{1},w_{2},...,w_{M}) 。将第 m 个单词 w_{m} 表示为一个 k 维的词嵌入向量 x_{m}\epsilon \mathbb{R}^{k} 。然后,将该句中所有的词向量连接在一起,组成词向量矩阵:
                                                             x=[x_{1},x_{2},...,x_{M}](1)
如果句子文本的长度未达到 M ,在词向量的最后用0补齐,将每条句子表示为一个维度为 k×M 的词向量矩阵。

卷积层:卷积层包含多个滤波器 ω∈\mathbb{R}^{h*k} ,其中 h为窗口宽度,每个滤波器产生一个新的特征表示。设x_{p:p+h-1} 表示词 x_{p},x_{p+1},...,x_{p+h-1} 的连接,则特征 \upsilon _{p} 是采用滤波器 ω 在一组词x_{p:p+h-1} 上计算得到,公式如下:
                                                         \upsilon_{p}=f(w\cdot x_{p:p+h-1}+b)(2)
     
其中, f ( ⋅ ) 是一个非线性激活函数,比如 Sigmoid 或ReLu函数, b 是偏差值。滤波器窗口覆盖到句子中的所有词 x_{1:h},x_{2:h+1},...,x_{M+h-1:M} , 可以产生一组特征图\upsilon
                                                        \upsilon =[v_{1},v_{2},...,v_{M+h-1}] (3)

池化层:一系列标准的最大池化操作运用到特征图v 上,用来获取特征中最大值作为重要特征:
                                                              \upsilon \tilde{}=max(u) (4)
其中,v\tilde{}表示输入样本和特定的滤波器对应的特征表示。

注意力层:注意力机制最初在计算机视觉领域被提出,主要目的是让神经网络根据需要将注意力集中于图像的特定部分,而不是整体图像 [24] 。Bahdana等人 [25] 于2014年将注意力机制成功应用于自然语言处理领域。鉴于注意力机制在自然语言处理任务上表现优秀,本文采用注意力机制在基于深度网络的EDL模型中引入情感心理学先验知识。首先为每种基本情绪生成一个描述情绪间相关度的先验情感分布,再通过注意力机制加权,预测最终的情感分布。

依据各种情绪在情感轮模型中的心理学距离,为每个情绪 α,α∈ { } 1,2,⋯,C ,生成一个先验情感分布 f α 。在先验情感分布 f α 中,情绪标签 α 的值应该最大,表达程度最高,其他情绪的值随着离情绪标签 α 在情感轮中的距离增大而减小。总体而言,先验情感分布 f α 应该是一个以情绪标签 α 为中心,左右对称递减的分布。根据 Geng 等人 [26] 的基于 LDL 的人脸年龄预测工作的结论,假设先验情感分布服从高斯分布。给定情绪标签α ,基于高斯分布生成先验情感分布 f α ,计算公式如下:

                                           f_{\alpha }^{a}=\frac{1}{\sigma \sqrt{2\pi }Z}exp(-\frac{\left | a-\alpha \right |^{2}}{2\sigma ^{2}})

                                            Z=\frac{1}{2\sigma ^{2}}\sum_{a}^{}(-\frac{\left | a-\alpha \right |^{2}}{2\sigma ^{2}})

其中, σ 是先验情感分布的标准差, Z 是归一化因子,使得 \sum_{a}^{}f_{\alpha }^{a}=1,\left | a-\alpha \right | 是情绪 a 与真实情绪 α 之间的情感轮距离。

池化层的输出向量v\tilde{}经过一个全连接层和Softmax激活函数,变换得到初步情感分布层 g=[g_{1},g_{2},...,g_{C}],其中 g j 是初步预测的第 j 个情绪的表达程度。然后,以初步情感分布 g 为权重,对各个基本情绪的先验情感分布进行注意力加权。最后,将加权的先验情感分布进行叠加,输出蕴含情感心理学先验知识的情感分布 d:

                                          d=g_{1}f_{1}+g_{2}f_{2}+...+g_{C}f_{C} (7)
其中, f_{j} 是第 j 个情绪 α j 的先验情感分布。

加权融合过程如下:

多任务损失层:EWA-EDL模型将交叉熵损失函数和KL损失函数结合,采用端到端的方式同时训练情感分布预测和情绪分类任务。两个同时训练的学习任务可以相互促进,学习得到更鲁棒的神经网络模型。对于已标注情感分布的数据集,情感分布d_{1}中表达程度最高的情绪作为句子 s i 的真实情绪标签,用于情绪分类。对于没有标注情感分布的单标签数据集,采用标记增强技术(label enhancement)[27] 将真实情绪标签扩展为情感分布。
EWA-EDL的目标损失函数是交叉熵损失和KL损失的加权组合,计算公式如下:
                                              E=(1-\lambda )E_{cls}+\lambda E_{edl}(8)
其中, E_{cls}代表用于情绪分类任务的交叉熵损失, E_{edl}是情感分布预测任务的KL损失, λ 是权重参数。根据前人的研究工作 [22] , λ 设置为0.7。交叉熵损失最大化目标标签的概率,是一种常用于分类任务的目标函数,定义为:                            

其中, l(\delta )是指标函数,当 δ 为真时 l(\delta ) =1 ,否则为0,y_{i}是句子 s_{i}的真实情绪标签, \left \{ a_{j}^{(i)} \right \}j=1,2,...,C表示句子s_{i} 在最后一层的输出值。

对于情感分布预测,KL损失度量预测分布和真实分布之间的差异,具体定义如下:

其中,  d_{s_{i}}^{j}是句子s_{i} 的不同类别标签的全部损失。

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/371407
推荐阅读
相关标签
  

闽ICP备14008679号