赞
踩
表情,人脸上的肌肉状态,可以表达人类的情绪。
1970年,Ekman定义了六种基本表情
动作单元(action unit)是定义表情的重要工具。
心理学家和生物学家认为,人的表情可以分解为不同面部肌肉的状态组合。
人脸动作编码系统,是定义AU的最重要系统之一,其中定义了几十个表情动作单元,且每个单元都存在一定的强度级别,从而可以通过组合得到上千种人类表情。
Action Unit | 描述 |
---|---|
1 | 皱眉毛 |
2 | 眼头上扬 |
4 | 眼角上扬 |
5 | 上眼睑上升 |
6 | 下眼睑上升 |
7 | 眼睛紧闭 |
9 | 鼻翼扩张 |
10 | 上唇上扬 |
12 | 嘴角上扬 |
14 | 嘴巴张开 |
如此,即可得到一些典型表情的编码公式:
同时,还有一些视频相关的数据集。
从数据上说,表情识别分为两种类型:
人脸对齐
在检测到人脸后,表情识别首先要做的事情就是:人脸对齐
通常,人脸对齐的方法有很多,但大部分的方法都是基于面部特征点的方法。
如最简单的将五个特征点对齐到目标位置,或者通过deepface通过3d的方法进行建模
图像正则化
图像正则化包含两个方面的内容:
亮度归一化的主要方法包括
姿势正则化的主要方法包括
表情识别本质上是一个分类问题。
在分类问题上的思路实际上有如下几个思路
给定一个标签和图像,训练一个cnn模型,得到一个表情分类器。
代表性方法: faceNet2emotionNet
图中,绿色的部分是已经训练完成的人脸识别模型,该模型已经学习到了不同人脸之间的区别。
第一阶段训练时,先冻结绿色部分,监督emotion net进行训练。注意到这里facenet的特征作为emotionnet的标签,令emotionnet的卷积层的输出尽可能与facenet接近。本质上,此部分是为了让facenet的知识迁移到新的网络中(教师学生网络)。
第二阶段,在emotion net的网络基础之上,加入分类器,用表情标签指导训练。最终得到emotion net的模型。
代表性方法2:island loss
代表性方法3: N+M元组损失
三元组损失的一个弱点认为,anchor的正负例选择至关重要,选不好了可能会对模型性能没有促进。
干脆选n个正例,m个负例,从而获得更好的效果。
代表性方法4: backbone集成
把三种不同网络的不同层拿出来,进行融合后送到分类器中。
除了上述端到端的模型之外,还有一种思路是考虑对AU进行预测,从而获取表情编码。
代表性方法:AUDN
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。