赞
踩
D3Net:厦门大学 发表于ACM MM 2021
原论文链接:有道云笔记
本文的第一作者是信息学院计算机科学与技术系2019级硕士生莫榕云,通讯作者是信息学院计算机科学与技术系严副教授。论文提出了一种基于多任务框架的双分支干扰分离的人脸表情识别方法(D3Net),包括表情分支和干扰分支,可以同时分离常见干扰特征和潜在干扰特征,提取更有效的表情特征。其中,干扰分支包含两个子分支。一个子分支利用其它人脸数据集的干扰标签和迁移学习的方式来训练,可以提取常见干扰特征。另一个子分支结合非参数贝叶斯先验——印度自助餐过程(IBP)先验,以无监督的方式学习潜在干扰特征。同时,该方法通过对抗训练来区分干扰特征和表情特征。最后,优化联合损失,促使表情分支更专注于提取高判别力的表情特征。实验结果表明,该方法在3个室内数据集和2个室外数据集上都达到了优越的识别性能。
ICCV作为计算机视觉领域国际顶级会议之一,由IEEE举办,被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议,在业内具有极高的评价。本次ICCV共计6236篇有效提交论文,其中有1617篇论文被接收,接收率为25.9%。 ACM MM是计算机学科公认的多媒体领域的国际顶级会议,被中国计算机学会列为A类会议,本次全球1942篇投稿中,542篇论文被录用,接收率为27.9%。
面部表情识别(FER)的主要问题之一是解决各种干扰因素,包括身份、姿势、光照、性别、种族、年龄等常见的干扰因素和潜在的干扰因素(如发型、配饰、遮挡等)。
继主干网之后,表达式分支由三个FC层组成。我们通过最小化交叉熵损失来训练表达式分支,交叉熵损失定义为:
LAS是为了捕捉常见干扰因素的干扰信息而开发的。然而,在大多数FER数据库中,只有身份和姿势的标签可用。幸运的是,一些大规模的人脸数据库提供了常见干扰因素的标签。例如,Multi-PIE [13]和RAF-DB [25]分别提供了身份、姿势、照明和性别、种族、年龄的标签。因此,我们能够利用迁移学习来利用这些可用的标签,实现fer数据库中常见干扰因素的明确解纠缠。
我们对人脸数据库中常见干扰因素的干扰信息进行预处理,为训练LAS提供参考干扰特征。
LAS通过在预先训练的模型上进行迁移学习,实现了对常见干扰因素的明确分解。
先使用DDL(下图)训练个模型,用来学习干扰因素D维特征分布。
该模型参考原文:https://note.youdao.com/s/S58rncuR
或者看我上一篇博客,就是介绍该模型的,当然只有PPT~
具体过程:
用下面公式监督LAS(两个FC层)拟合出DDL可以提取的D维特征。
说不清楚,介建议看原文~
大多数方法[15,18,20]同时执行图像重建和解纠缠。虽然图像重建有利于捕捉详细信息,但不利于执行解纠缠。与这些方法不同,我们利用对抗性训练来最大化无标签干扰特征和表情特征之间的差异(而不是使用解码器进行图像重建),从而提高分类性能。
我们不会强制实施从LFS和LAS提取的特征之间的差异,因为这些特征不是相互不相关的(例如,一些常见的干扰因素(如性别)和一些潜在的干扰因素(如发型)之间的相关性可能很高)。
对抗训练包含两个步骤。
类似地,我们还执行对抗性训练,以从表情特征中去除标签感知干扰特征。
点评:Adversarial Training这个设计和上一篇差不多,都是使用对抗的方式,让fiu和fia里面都不包含和表情相关的特征。
但这样的设计都只能让上面的两个分支提取到的干扰信息更加准确。和最下面的表情分支,让其更专注于提取高判别力的表情特征好像关系不大。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。