赞
踩
摘要
随着人们越来越倾向于通过视觉内容来表达情感,视觉情感分析越来越受到人们的关注。卷积神经网络(cnn)的最新算法极大地推进了情绪分类,其目的是区分情绪类别之间的差异,并为每个图像分配一个单一的主导标签。然而,这个任务本质上是模棱两可的,因为一个图像通常会唤起多种情绪,并且它的注释因人而异。在这项工作中,我们通过标签分布学习来解决这个问题,并通过联合优化分类和分布预测来开发一个多任务深度框架。虽然该方法更倾向于具有不同投票者注释的分布数据集,但在该领域广泛采用多数投票方案作为基础事实,很少有数据集提供多个情感标签。因此,我们进一步利用两种弱形式的先验知识,将其表示为标签之间的相似性信息,以生成每个类别的情感分布。
在两个分布数据集(即Emotion6, Flickr LDL, Twitter LDL)和最大的单标签数据集(即Flickr和Instagram)上进行的实验表明,所提出的方法优于最先进的方法。
1 Introduction
理解图像中隐含的情感由于其各种应用而吸引了许多人的兴趣[Jia等,2012;Borth等人,2013]。受心理学和艺术原理的启发,许多工作都在研究不同的手工制作特征组[Machajdik和Hanbury, 2010;Zhao et al ., 2014],其目标是为每张图像自动分配单个情感。在过去的几年里,随着cnn的迅速普及,研究人员[Y ou et al ., 2016;Sun et al ., 2016]也将cnn应用于图像情感识别,并展示了深度特征相对于手动调整特征的优越性能[Rao et al ., 2016]。
然而,与传统的视觉任务相比,情感层面的图像分析本身就具有挑战性。情感意象很少表达纯粹的情感,但通常是不同情感的混合[Plutchik, 1980;赵等,2014]。此外,不同社会文化背景的人对同一幅图像可能会有不同的情绪反应。图1显示了来自新发布的Flickr LDL数据集的三个样本[Y ang et al ., 2017],注释者对任何图像都没有达成一致。可以看出,情绪之间存在着标签歧义,即“ground-truth标签”的不确定性。
虽然大多数研究都将占主导地位的选票视为基本事实[Machajdik和Hanbury, 2010;[you et al ., 2016],这种模糊性特征被忽略,使得难以学习用于预测图像标签的鲁棒情感表征。
我们开发了一个深度多任务框架来解决这个问题,其中使用softmax作为分类约束,并添加Kullback-Leibler (KL)损失进行分布学习。对于具有不同用户详细注释的分布数据集,我们在训练阶段显式地使用投票作为基础真值标签分布。在联合优化过程中,情感分类和分布预测任务借助丰富的情感关系相互促进。另一方面,多数投票方案是在该领域广泛采用的第26届国际人工智能联合会议论文集(IJCAI-17) 3266,目前大多数数据集是单标签数据集。我们利用两个弱先验知识在这些数据集上生成用于训练的分布。
受[Zhao et al ., 2016]的启发,两两情感距离可以根据Mikels ' wheel [Mikels et al ., 2005]来定义(见图2),很明显,情感标签之间存在着层次结构。例如,娱乐、满足、敬畏、兴奋是积极情绪,而悲伤、愤怒、恐惧、厌恶是消极情绪。
在这项工作中,基于两两情感的相似性,我们生成了以下高斯函数的分布[Geng et al ., 2013]。与以往考虑标签歧义并旨在预测分类图像情绪概率分布的工作不同[Zhao et al ., 2015;Peng et al ., 2015;yang等人,2017],我们提出的多任务框架同时优化了分类和标签分布预测,在分布数据集(Emotion6, Flickr LDL, Twitter LDL)和单标签数据集(Flickr和Instagram)上都表现更好。
我们的贡献总结如下。首先,我们通过多任务深度学习框架解决了视觉情感分析的挑战,该框架可以以端到端方式学习模糊情感类别之间的情感表征。其次,我们还将方法扩展到单标签数据集,使用两种策略将主导情绪标签转换为分布,并将标签歧义性纳入学习过程,从而提高了分类性能。我们将发布代码、模型和结果,以供可访问的可重复研究。(找了没找到,估计没发)
2 Related Work
关于视觉情感分析的一般文献范围从静止图像[Machajdik和Hanbury, 2010]到视频[Pang和Ngo, 2015]。在本节中,我们将重点回顾情感图像预测的相关工作,特别是基于深度学习的方法和标签分布学习算法。
2.1 Image Emotion Classification
以往的图像情绪分类工作可以大致分为维度方法[Nicolaou et al ., 2011;Lu et al ., 2012]和分类方法[Machajdik and Hanbury, 2010;赵等,2014]。维度方法在二维或三维空间中表示情感,而分类方法将情感映射到一个具有代表性的类别中,这种方法便于人们理解,因此在近年的研究中得到了广泛的应用。
之前大多数关于图像情感分析的工作都使用基于底层特征的艺术元素。[Machajdik和Hanbury, 2010]基于艺术和心理学理论定义了丰富的手工特征的组合,包括构图、颜色变化和图像语义。[Zhao et al ., 2014]引入了根据艺术原则设计的更鲁棒和不变性的视觉特征。这些手工制作的视觉特征在几个小数据集上被证明是有效的,这些数据集的图像是从几个特定的领域中选择的,例如抽象绘画和艺术照片[Machajdik和Hanbury, 2010]。
最近,考虑到基于CNN的方法在许多计算机视觉任务中的成功,CNN也被用于情感表示,并取得了重大进展。[Chen等人,2014]将DeepSentiBank构建为视觉情感概念(形容词-名词对,ANP)分类模型,该模型可作为检测图像中描述的情感的有效统计线索。
有几项工作结合了从大规模通用数据集学习的模型权重[Deng等人,2009],并对最先进的cnn进行了微调,以完成视觉情绪预测任务[Campos等人,2015]。[j]等人,2015;2016]提出了一种新颖的渐进式CNN架构,即PCNN,以利用大型噪声网络数据,并进一步对Flickr和Instagram (FI)数据集进行基准分析,该数据集是目前最大的单标签数据集,包含23,308张情感图像。在[Rao et al ., 2016]中,提出了一种多层深度网络(MldeNet)来统一图像的低级和高级信息。现有的CNN视觉情感分析框架可以被视为分类[You et al ., 2016]和回归[Peng et al ., 2015]模型,它们使用softmax损失来最大化正确类别的概率或欧氏损失来最小化预测与基本事实之间的平方差。然而,这两种优化目标函数都未能利用图像类别间的情感歧义和相似信息。
2.2 Label Distribution Learning
[耿,2016]提出了一种新的机器学习范式来描述每个标签的确切作用,该范式包含三种算法策略,即问题转移(PT)、算法自适应(AA)和专用算法(SA)。
据我们所知,很少有研究关注视觉情感分析中如此详细的歧义信息。[Zhao et al ., 2015]提出利用低级特征利用共享稀疏学习模型预测概率分布。[Peng et al ., 2015]利用深度CNN对每个情感类别进行欧几里得损失训练回归,然后将其输出归一化为每个类别的概率。基于最先进的状态概率神经网络(CPNN)[耿等人,2013],BCPNN和ACPNN [Y ang等人,2017]被开发用于预测情绪分布。然而,基于cpnn的方法仅被设计为三层神经网络分类器,将现成的特征作为输入。这种方法是次优的,因为提取的特征在学习过程中没有考虑标签之间的相关性。最近,DLDL被提出使用深度神经网络学习标签分布,用于具有连续标签的任务,例如年龄估计和头姿估计[Gao等,2017]。由于DLDL最小化了预测分布与真值分布之间的Kullback-Leibler散度,因此主导标签在预测中可能会混淆。
3 Methodology
对于情感图像x,将描述度赋给代表情感对图像描述程度的C类的每个情感标签,其中。对于分布数据集,我们明确地使用投票作为真实标签分布。如图2所示,我们采用提出的深度多任务框架,根据标签分布l∈RC,同时优化分类和分布预测。此外,我们还提出了两种将单个情感转换为单标签数据集上训练的分布的策略
3.1 Converting Single Emotion Problem
多数投票方案在大多数数据集中被广泛采用以获得单一情感基础真理[Machajdik and Hanbury, 2010;you et al ., 2016]。由于很少有数据集提供人工标注的情感分布,我们建议从单个标签生成l。受到两两情绪类别之间存在不同相似性的启发[Plutchik, 2001],我们根据Mikels ' wheel [Zhao et al ., 2016]固定情绪标签的顺序,因此可以通过计算从一种情绪到另一种情绪的步数来定义距离。如果第i个情感与基本真理之间的距离小于第j个情感与基本真理之间的距离,则设li > lj。
就标签之间的逻辑关系而言,多标签分类中有两种常见的形式,即隐含和排除[Mirzazadeh et al ., 2015]。为了暗示,它想要强制形式为Yi⇒Yj的关系,这意味着每当标签Yi被设置为1时,标签Yj也必须被设置为1。对于不相容,它想要执行形式为¬Yi∨¬Yj的关系,这意味着标签Yi和Yj中至少有一个必须设为0。然而,这些关系不能直接应用于分布问题。因此,我们提出了两种单独的策略来从单个情绪数据集生成分布,如下所示。
Constraint 1: Implication
对于单标签数据集,我们将每张图像的主导标签定义为其原始标签y。考虑到隐含的性质,我们将基于距离的所有其他情绪的概率分配给主导标签,这表明图像可能会引起不同人的各种情绪反应。我们使用单变量高斯函数生成分布l,该分布广泛应用于多种应用[耿等,2013;耿,2016]。因此,概率密度函数可以写成:
其中µ表示主导情绪,表示由标签注释的置信度决定的每种情绪的影响程度。固定参数ε保证了整体情绪与概率的考虑,在我们的工作中固定为0.1。因此,分布可以表示为
它们的和归一化为1
Constraint 2: Exclusion
考虑到排他性,我们也可以假设每个情感图像在标签分布中只能唤起相同效价的情感,无论是积极的还是消极的。所以概率p变成了
式中,Yµ表示所有以µ为主导标签的同价情感。
利用这两种弱形式的先验知识,我们为单个情感数据集生成情感分布,并采用多任务框架进行情感分类。在这里,“弱”是指这种先验信息可以从辅助来源获得,例如心理研究或统计结果。对于测试图像的预测分布,我们选择概率最大的标签作为单个情绪进行分类。
3.2 Visual Sentiment Multi-task Learning
给定基础真值分布(或由单个情感标签生成),我们明确地在CNN中训练深度模型,以最小化预测分布和首选分布之间的距离。我们的损失函数通过加权组合与两种类型的损失进行积分:
其中lcls和Lsdl分别表示分类损失和情感分布损失。λ是控制两种损失之间权衡的权重
在标准训练过程中,对softmax loss进行优化,使正确类的概率最大化[Krizhevsky et al ., 2012]。给定训练集,其中x(i)是第i个情感图像,y(i)∈{1,2,…,C}是单个类标签。设为x(i)在最后一个完全连接层中单元j的激活值,则通过最小化softmax损失函数来完成最后一层的微调:
如果δ为真,则指示函数1(δ) = 1,否则为0。P (i) j表示x(i)的标号为j的概率,由
softmax的损失可以看作是所有训练图像{xi}Ni=1的负对数似然之和,它对每个类的分类错误进行同等的惩罚。因此,类内方差没有被保留,而这种方差对于发现视觉情感相似实例是必不可少的。
对于分布学习,我们采用以下KL损失[Gao等人,2017],这是测量真实值与预测标签分布之间相似性的一种方法。情感分布学习损失定义如下:
其中Lsdl(x, l)的优化可以根据不同情绪分布的相似度对训练图像进行分组。
对于我们的损失函数,我们应用随机梯度下降(SGD)对(3)进行优化。根据链式法则,的梯度可以由
在前向传播阶段,可以预测给定图像的情绪分布,其中概率最高的标签被认为是主导情绪。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。