赞
踩
摘要:
图像的哪些部分能唤起观察者的情感?为了回答这个问题,我们在计算机视觉中引入了一个新的问题——预测情绪刺激图(ESM),它描述了像素对诱发情绪的贡献。建立EmotionROI图像数据库作为预测ESM的基准,我们发现显著性和物体检测选择的区域不能正确预测引起情感的图像区域。
虽然物体代表了唤起情感的重要区域,但背景的某些部分也很重要。基于这一事实,我们建议使用全卷积网络来预测ESM。定性和定量实验结果都证实了我们的方法比显著性和客观检测更能预测引起情绪的区域。
1.引言
当观看图像时,会引起各种情绪反应,这不仅取决于图像中一个或多个物体的排列,还取决于观看者的情绪状态或背景。例如,蹦极的图像可以让热爱户外运动的人兴奋,但它可以唤起那些恐高的人的恐惧。即使在同一幅图像中,不同的区域对观众唤起的情感的贡献也是不同的。想象我们农作物的黄色、绿色和红色矩形(图1 (c), (d)和(e))从图1 (a)和现在他们单独查看器没有显示观众完整图像上下文(a)。(e)的情感反应是类似于(a)比(c)或(d)。我们代表图像的不同程度的影响,区域对观众的情感反应与一种情感刺激地图(ESM),图1所示(b),亮区域表示更高的影响力。ESM (b)是通过对用户研究中的选择进行平均而产生的,并且与(e)最能捕捉(a)的情绪诱导区域的观察结果相匹配。在这项工作中,我们对预测ESM感兴趣。
近年来,情感相关的话题在计算机视觉领域受到越来越多的关注,尤其是情感图像分类。
Machajdik和Hanbury[1]对艺术形象和现实形象都进行了情感形象分类。Solli和Lenz[2]在实验中使用的是网络图像,而Wang等[3]关注的是艺术照片或抽象画的情感图像分类。Peng等[4]也使用互联网图像预测和转移情绪分布。此外,也有从动图[5]和多语言视角研究情绪的相关作品[6]。尽管我们已经探索了不同形式的多媒体,但之前的作品都没有分析图像中不同区域对情感的影响。没有评估ESM的基准。我们使用Emotion6数据库[4]中收集的图像构建一个基准数据库EmotionROI,用于预测ESM。EmotionROI数据库中提供的ESM的ground truth是基于用户研究中用户标记的答案生成的。
显著性检测[7,8,9]和客观测量[10]是与预测ESM密切相关的两个热门话题。虽然显著性和客体性检测倾向于在图像中找到显著的物体,但ESM捕获的是影响诱发情绪的区域,这些区域可能不仅包含显著物体,还包含其他与情绪相关的区域。
例如,图2 (c)和(d)分别为以图2 (a)为输入的显著性[7]和客观性[10]检测结果。图2 (c)关注的是深色突出区域,而图2 (d)强调的是枯萎的花朵。图2 (c)和(d)都不能很好地反映图2 (b)的真值ESM,三分之二的受试者表示,影响唤起情绪的区域不仅包括花,还包括其他与情绪相关的区域。在这项工作中,我们使用全卷积网络来预测ESM,与最先进的显著性和客观性检测算法相比,结果更接近真实。
以往与显著性检测相关的工作[11]经常考虑使用眼动追踪设备来收集地面真相并进行验证。然而,在EmotionROI中构建ground truth ESM时,我们选择不使用眼动追踪设备,原因如下:1)在任务定义方面,显著性检测与预测ESM不同,我们也在图2中展示了它们的区别,其中(b)和(c)甚至不相似。2)人类在图像中看的地方可能隐含地揭示了对唤起的情感影响最大的部分区域。然而,我们认为直接要求被试标记情绪相关区域是一种更直接和有效的方法,可以避免由眼动追踪结果推断产生的潜在错误。
据我们所知,这是计算机视觉领域第一篇解决预测ESM问题的论文。我们做出了以下贡献:1)我们建立了一个基准数据库EmotionROI,通过执行用户研究并收集Emotion6数据库中提供的图像的ground truth ESM来预测ESM[4]。EmotionROI数据库可在线获取[12]。2)我们建议使用全卷积网络来预测ESM。我们的方法比最先进的显著性和客观检测算法预测更准确的esm。
2. 拟建的数据库和用户研究
我们使用Emotion6数据库中的图像[4]来构建我们提出的基准数据库EmotionROI,用于预测ESM。EmotionROI数据库包含了通过要求人们识别图像中最能影响他们唤起情绪的区域而收集到的真实esm。
Emotion6[4]由6个情感类别组成,每个类别有330张图片。对于每张图像,提供以下信息:1)基于情感关键词的诱发情绪分布的基本真值。2)用于搜索每个图像的情感关键字。Emotion6[4]是通过输入与Ekman的6种基本情绪[13](愤怒、厌恶、喜悦、恐惧、悲伤和惊讶)相对应的6个类别关键词及其同义词作为搜索关键词,再经过人工审核,去除错误图像,从Flickr中组装而成的。Emotion6总共包含了1980张图片。每个图像大约是VGA分辨率。
采用Emotion6[4]中的全部1980张图像,我们使用Amazon Mechanical Turk (AMT)收集受试者的响应,构建EmotionROI中的ground truth esm。我们要求受试者画一个矩形,将图像中最能影响唤起情感的部分围起来。图3中最左边的图像是接口的快照。我们以与Emotion6[4]类似的方式收集响应。我们考虑Emotion6[4]提供的情绪类别,并为AMT创建220个不同的HIT(每个HIT包含10张图像),满足以下约束:1)每个HIT至少包含6个类别中的每个类别的一张图像。2)图像排序的方式是,对于所有i, j来说,类别i的图像出现在类别j之后的频率是相同的。为了与之前的数据库保持一致,我们强制执行以下规定[14]:1)同一受试者最多只能对每张图像或HIT做出一次响应,并且每个受试者不能对超过55个不同的HIT做出响应,以增加多样性。2)每张图像收集15个响应,结果具有统计学显著性。432名不同的受试者参与了实验,每人平均对76.4张图片做出反应。我们假设每个像素对唤起情绪的影响与覆盖该像素的绘制矩形的数量成正比。地面真值esm被归一化为0到1之间的范围。图3显示了EmotionROI中的一些示例图像以及相应的地真值esm。图3还显示了用于搜索每张图像的情感关键字(Emotion6[4]提供)。
3. 预测情绪刺激图
我们提出了带欧几里得损失的全卷积网络(FCNEL)来预测ESM。自从Long等人[15]推广了全卷积网络(Fully Convolutional Networks,简称FCN)以来,该方法在语义分割方面的性能已经达到了最先进的水平。我们利用FCN,因为FCN提供了一个端到端的训练框架,它生成与输入图像相同分辨率的逐像素密集预测。具体来说,我们在Long的工作[15]中采用了基于AlexNet[16]架构的单流32像素预测跨步版本的FCN。我们之所以选择这种标准且相对简单的体系结构,而不是其他更深或更复杂的网络,是因为我们的数据库规模相对较小。因此,我们希望保持需要训练的参数数量可控。
在Long的工作[15]中,使用softmax损失层作为FCN中的目标函数进行语义分割,其中任意两个不同的语义标签是互斥的。然而,在预测ESM时,我们希望预测每个像素位置对诱发情绪的影响,而不是许多相互排斥的类标签中的一个。因此,我们改变了FCN最顶层的全连接层,使得在每个像素位置只预测一个表示对诱发情绪的影响的输出。我们还将softmax损失层更改为欧几里得损失层,以便可以训练修改后的FCN以根据l2范数预测接近相应基真值的ESM。为了区分使用欧几里得损失的FCN和用于语义分割的常见FCN,我们使用FCNEL来参考前一种方法。
我们使用Caffe[17]框架训练FCNEL来预测ESM。我们使用参考模型FCN-AlexNet对FCNEL进行预训练,该模型是为PASCAL VOC分割任务[18]训练的,由Long等人[15]提供。在预训练之后,我们使用EmotionROI训练数据对FCNEL的所有参数进行微调。为了有效地训练FCNEL,同时避免学习参数的收敛问题,我们经验地将基本学习率设置为10−8。设置训练迭代的次数,使得每个训练示例至少被访问20次。对于其他训练细节,除非另有说明,我们均采用Long等[15]提供的相同设置。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。