赞
踩
发表年份: 2016
主要贡献:
在这些在线意见视频中研究情绪主要面临的挑战和解决方法:
挑战 | 解决方法 |
---|---|
这些视频的不稳定性和快节奏性。演讲者经常在主题和观点之间切换。这使得识别和区分发言者表达的不同观点变得具有挑战性。 | 该文章提出了一种主观性注释方案,用于在线多媒体内容中的细粒度意见分割。 |
这些意见视频中表达的情绪强度的范围和微妙性。希望方法不仅能够识别视频片段的极性(例如,正面或负面),而且还能估计表达情绪的强度。 | 每个意见片段中的情绪都被注释为高度积极和高度消极范围之间的值。 |
如何使用信息而不仅仅是文本?简单地关注口语(例如,基于文本的情感分析)可能会带来歧义,这将通过视觉信息来解决。 | 该文章提出了与情感强度相关的语言和手势的多模态研究,这导致了多模态字典的想法。 |
数据集 | 详情 |
---|---|
YouTube Opinion Dataset | 包含了来自YouTube的47条视频。该数据集由手动转录的文本和自动提取的音频和视频特征以及自动提取的话语组成 |
MMMO Dataset | 是YouTube Opinion Dataset的扩展,将47个视频扩展到370个 |
Spanish Multimodal Opinion Dataset | 是西班牙多模态情绪分析数据集。它由105个视频组成,在话语层面对情感极性进行了注释,总共包含了550个话语(话语是基于长时间停顿自动提取的,大多数视频有 6-8 个话语) |
这些数据集都没有情感强度注释,它们更注重极性,主要关注对视频或话语的分析,而不是对情绪细粒度(fine-grained)的分析。
该数据集包括:
从YouTube上下载用户表达有关不同主题的意见的video-blog 或者 vlog。
要求:
按照上述要求选择了93个视频,最后视频集合中包含89位不同的演讲者,其中有41位女性和48位男性,年龄在20~30岁之间,都用英语表述,数据集示例如下图:
所有的视频剪辑都是手动转录的以提取口语和每个口语开始的时间。转录分为4个阶段:
该文章将主观性定义为一种私人状态的表达,一种通过携带一种观点、信仰、思想、感觉、情感、目标、评价或判断来区分的状态。用一下3个规则定义主观性:
主观性注释产生了2199个主观片段和1503个客观片段,对于情感注释,只关注主观部分。数据集和意见段的详细统计数据见下表:
情绪强度定义: 从强烈消极到强烈积极,线性标度从 -3 到 +3。
标定者:认可率高于95%的Amazon Mechanical Turk网站的在线工作人员
标定视频:2199个主观意见段
注释结果选择:strongly positive (labeled as +3),positive (+2),weakly positive (+1),neutral (0),weakly negative (-1),negative (-2), strongly negative (-3),uncertain
任务表述:“How would you rate the sentiment expressed in this video segment? (Please note that you may or may not agree with what the speaker says. It is imperative that you only rate the sentiment state of the speaker, not yourself)”
注释次数:每个视频由5个工人标定,最后取平均值
数据集中情感强度注释结果如图所示:
音频和视觉特征自动从MPEG文件中提取,音频帧率位1000,视频帧率位30。
视觉特征包括16个面部动作特征,68个面部标志、头部姿势和方向、6个基本情绪和眼睛注视。
使用COVAREP提取了超过32个音频特征,包括音高、能量、NAQ(归一化幅度商)、MFCCs(梅尔频率倒谱系数)、峰值斜率、能量斜率。
并且,提供手动姿势注释来研究单词和姿势之间的关系,由于手在视频中并不常见,因此专注于面部姿势,选择了4种姿势和表情:微笑、皱眉、点头和摇头。注释是通过简单地标记具有这些表达中的每一个的意见段来进行的。一个专家编码器手动注释了所有 2199 个视频片段,另一个编码器注释了这个数据集的一个子集,以确认编码器的高度一致性。对于所有 4 个姿势,平均编码一致性为 80.8%
动机:想要理解单词和视觉姿势之间的交互模式
研究方案:研究当特定面部姿势存在与否时感知情绪强度分布的变化
研究问题:是否所有口语都与面部姿势进行相似的交互,或者在这些多模态交互中是否存在原型模式?
图 3 显示了多模态分析中的代表性示例,图 3 中显示的每个子图都是一个直方图,表示每个意见段的感知情感强度分布。图中可以看出口语和面部姿势之间可以分为4中不同的交互模式:中性、强调、积极和消极模式。
设置:
方法:所有预测模型均使用 nu-SVR进行训练,并使用 5 折交叉验证方法进行测试。超参数的自动验证在训练集上进行了 4 折交叉验证。线性 nu-SVR 的超参数是 C C C和 n u nu nu。在验证阶段, C C C是从范围 [-5,3] 的 10 次幂中自动选择的, n u nu nu以0.1位步长从[0.1,1] 自动选择。回归器的性能是根据平均绝对误差 (MAE) 和相关性计算的。在这些研究中,我们训练了以下模型:
模型 | 描述 |
---|---|
Random | 一个简单的基线模型,该模型始终预测 [-3, +3] 之间的随机情绪强度,这个基线给出了关于随机模型如何工作的总体思路 |
Verbal | 仅使用MOSI中的语言特征进行训练。一个非常简单的词袋特征集是从语音片段中的单词创建的字母组合和双字母组合创建的,包括语音暂停和暂停填充。考虑到它们的频率不高,数据集中少于 10 个实例的所有特征都从词袋中删除。 |
Visual | 使用4中面部姿势进行训练。 |
Verbal + Visual | 结合单词和视觉姿势数据进行训练,每个意见段的单词和视觉特征被简单的concat起来。 |
Multimodal Dictionary | 对单词和视觉姿势的联合进行训练。建立多模态字典,对每一个单词 W j W_j Wj和姿势特征 G j G_j Gj,将集合{( W j W_j Wj & G j G_j Gj), ( W j W_j Wj & ~ G j G_j Gj)} 添加到多模态字典中。其中( W j W_j Wj & G j G_j Gj)表示单词和视觉姿势同时出现,如果他们都出现在语音片段中,则( W j W_j Wj & G j G_j Gj)值为1;( W j W_j Wj & ~ G j G_j Gj)表示仅单词出现,如果符合这种情况,则其值为1。 |
Human Baseline | 人工预测每个意见段中的情绪得分。 |
结果如下表所示,创建的多模态词典优于简单的特征连接:
通过线性C-SVM和DNN来进行主观分析实验。线性 C-SVM 超参数的验证方式与情感研究相同(第 4.1 节)。DNN是完全连接的网络,其层数在 [1, 5] 之间验证,每层中的神经元数量从 [10, 50] 以 10 为步长进行验证。表 4 显示了不同基线模型的结果多模态主观性分析:
表 3 显示了来自视觉手势的信息如何帮助多模态词典对情绪做出更准确预测的示例。
在第一种情况下,可以看出语言预测是中性的,而强烈的正面视觉线索有助于多模态词典更准确地预测意见的强度。
在第二种情况下,虽然语言暗示表明高度积极,但通过摇头表现出负面情绪表明该意见不应被视为高度积极。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。