赞
踩
《Multi-modal Conditional Attention Fusion for Dimensional Emotion Prediction》
《基于多模态条件注意融合机制的多模态情感预测》
“离散”:数据不可再分,比如:计数(1、2、3…)、分类(A/B/C/D)、等级数据(1/2/3)
”连续“:数据可再分(提高精度可以量出更多位数),比如:身高
情感分析在组成形式上可以分为:单模态 or 多模态,在表现形式上可以分为:离散 or 连续
模态选择:文本、图像、语音
离散的情况:比如对分类情况的【喜、怒、恐】、【arousal(正 or 负)、valence(兴奋 or 平静)】
连续:比如对arousal进行量化:eg:”我喜欢这件衣服,但是它尺寸太大了“,量化后【正:0.2362,负:0.7638】
对单模态的研究相对成熟、在数据集充分的下,一般能达到实验室的理想状况,但是不满足工业环境的需要。我们生活中接触到的信息大多是多模态的,比如:评论(文本+图片),在线直播(文本+视频)、字幕的匹配(文本+音频)。因此解决多模态的融合提高情感识别率是可深入研究的方向。
其次,对于离散维度的情感识别是比较好处理的,但是对于连续维度的情感判别不好处理,因为情绪是动态变化的 ,追踪局部信息来反馈最终的情感判别,需要解决的问题是怎么”组装“好这些不同的信息。
针对多模态融合的连续维度情感预测难的问题,本文特研究基于多模态的融合,进行连续维度情感预测,称为“条件注意融合(CA-fusion)”策略。
策略特点:在每个阶段动态的关注不同的模块,并根据输入特征、最近处理的历史信息【长短期记忆递归神经网络(LSTM-RNN)】完成对不同模块的权重分配,这里就体现了”条件“注意思想。
数据集:AVEC2015(a subset of the RECOLA dataset),数据集模态构成:音频+视觉
采用维度情感:将一种情绪状态映射到连续空间中的一个点上。
连续空间组成:三维度【arousal:正/负情绪程度,valence:兴奋/平静程度,dominance :权重分配程度】
多模态融合策略:
特征级(早期)融合
使用来自不同模态的连接特征作为分类器的输入特征。缺点在于存在维度灾难,当不同模块的特征不同步时,效果较差。
决策级(后期)融合:
通过训练例如RVM、BLSTM网络,处理对不同模态进行单独预测。缺点在于忽略了不同情态特征之间的相互作用和关联。
模型级融合:
对于一个网络结构,其隐含层由不同模块的隐含层连接构成。缺点在于不同模块的隐含层特征差异大,实现拼接难度大。
本文采用的网络结构:用LSTM(能够捕捉长时间相关性)作为每个单一模态的基本模型,然后根据其当前输入的多模态特征和最近的历史信息来学习它应该在每个模态上施加多少权重。
优点:1、更明显、可靠的模态被得到重视,2、动态地组合不同模态的预测,避免了不同特征之间的维数灾难和同步,3、输入特征在更高的层次上相互作用,即达到了不同模态单独预测,又做到了各模块的相互作用。
训练方式:
“CA-fusion”模型预测表达式:
视觉&听觉的权重表达式:
结果:arousal & valence 预测
在arousal预测上,CA-fusion效果较早期略差,在valence预测上,CA-fusion是最优的。
单模态&CA-fusion模态的比较
上:视觉特征缺失
下:含大量视觉特征
CA-fusion:能自动融合不同特征。一说明了视觉特征的重要,二是不管视觉特征存在与否,其结果都比单模态的好,更说明了CA-fusion方式能够较好融合多模态特征。
Advantage:
DisAdvantage:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。