当前位置:   article > 正文

Self-supervised Representation Learning from Videos for Facial Action Unit Detection(CVPR 2019)_facial-action-unit-detection

facial-action-unit-detection

Self-supervised Representation Learning from Videos for Facial Action Unit Detection(CVPR 2019)
Paper PDF

Introduction

Facial Action -> Functional -> usual methods -> problem -> proposed method

人脸作为人类之间交流所面对的人体器官,可以显示出无数种信息。为了全面的研究面部的运动模式,Ekman和Friesen开发了面部动作编码系统(FACS),它定义了一套独特的约40个原子级别的面部肌肉动作,称为动作单元(Action Units, AUs)。通过对人脸面部运动单元的检测,我们可以从中获取大量与人内心活动有关的信息,并具有广泛的应用场景。比如,表情识别、健康评估、人机交互等等。通常对AUs的检测算法按照类型可以分为以下三种:

  1. Descriptor:
  2. Supervised:
  3. Self-supervised:

由于给视频中人脸打面部运动单元标签的任务困难,导致在AUs检测方面的数据集极为缺乏,小样本的监督学习也容易造成过拟合。对此,本篇论文提出基于检测运动信号的自监督学习方式。考虑到不同帧中人物头部的差异由面部的AUs变化和头部姿势的改变两者共同造成,本文提出一种Twin-Cycle Autoencoder(ACAE)来同时学习头部姿势相关和面部运动单元相关的运动信息,并以此来解耦两者,达到提取discriminative的AUs表征。具体来讲,TCAE通过预测AUs相关和头部姿势相关的运动,将源帧的AUs和头姿态转换为目标帧的AUs和头部姿态。

在这里插入图片描述


Innovation

  1. 用像素移动来表示AU以及头部姿态的运动,并以这种运用信号,来进行自监督的学习。具体见##Cycle with AU/pose changed
  2. 对AU和头部的运动进行解耦,获得更加‘纯粹’的AU表征。

Method

在这里插入图片描述
整个网络架构如上图所示,可以大致分为以下三个模块:

Feature disentangling

TCAE首先对源人脸图像和目标人脸图像使用编码器分别获得各自的AU特征( ϕ s , ϕ t \phi_s,\phi_t ϕs,ϕt)和头部姿势特征( ψ s , ψ t \psi_s,\psi_t ψs,ψt)。TCAE将 ϕ s , ϕ t \phi_s,\phi_t ϕs,ϕt级联在一起输入AU-related解码器 D A D_A DA D A D_A DA用来解码AUs是如何从源脸变换为目标脸。同理,将 ψ s , ψ t \psi_s,\psi_t ψs,ψt级联在一起输入pose-related解码器 D P D_P DP D P D_P DP用来解码头部姿势是如何从源脸变换为目标脸。

论文中将这种变换定义为像素的移动。比如AUs造成的变换可以定义为一个矩阵 τ A ∈ R W × H × 2 \tau^A \in \mathbb{R}^{W \times H \times2} τARW×H×2,其中 W , H W,H W,H分别代表图像的宽和高。 τ x y A = ( δ x , δ y ) \tau^A_{xy}=( \delta_x ,\delta_y) τxyA=(δx,δy),其中 δ x , δ y \delta_x ,\delta_y δx,δy分别表示在位置 ( x , y ) (x,y) (x,y)上的像素在x方向和y方向的位移量。因此, τ A \tau^A τA作为一种变换,将原始人脸改变为AU-changed的人脸,即 I s ↦ I A I_s \mapsto I_A IsIA

与之相似,我们从pose-related解码器 D P D_P DP从获得与头部姿态相关的像素的移动 τ P \tau^P τP τ P \tau^P τP作为一种变换,将原始人脸改变为pose-changed的人脸,即 I s ↦ I P I_s \mapsto I_P IsIP

为了区分AU和位姿变化引起的位移,我们在 τ A \tau^A τA上加入L1正则化,以保持AU-related运动的稀疏性和精微性,如式所示:
L 1 A = ∑ x , y ∥ τ x y A ∥ 1 (1) \mathfrak{L}_1^A=\sum_{x,y} \| \tau_{xy}^{A}\|_1 \tag{1} L1A=x,yτxyA1(1)

Target reconstruction

TCAE通过线性组合的方式来整合由 τ A \tau^A τA τ P \tau^P τP造成的帧间差异。
τ x y = α x y A τ x y A + α x y P τ x y A s . t . α x y A + α x y P = 1

τxy=αxyAτxyA+αxyPτxyAs.t.αxyA+αxyP=1
s.t.τxy=αxyAτxyA+αxyPτxyAαxyA+αxyP=1

τ \tau τ作为变换,将源人脸映射为预测的目标人脸。因此,我们需要限制变换后的人脸与目标人脸的相似度,如式2所示:
L r e c = ∥ τ ( I s ) − I t ∥ 1 (2) \mathfrak{L}_{rec} = \| \tau(I_s)-I_t \|_1 \tag{2} Lrec=τ(Is)It1(2)
其中, I s , I t I_s,I_t Is,It分别为源人脸图片和目标人脸图片。

Cycle with AU/pose changed

在 AU-changed 的循环中:
给定输入 ( ϕ s ϕ t ) (\phi_s\phi_t) (ϕsϕt) D A D_A DA解码到由 I s I_s Is I A I_A IA的变换 τ A \tau^A τA。这个变换具体为一个( W × H × 3 W \times H \times 3 W×H×3)矩阵,包含每个像素点的mask和偏移量。基于变换 τ A \tau^A τA,我们可以得到AU-changed人脸 I A = τ A ( I s ) I_A=\tau^A(I_s) IA=τA(Is)。并定义 I A I_A IA经过编码器得到AU相关特征 ϕ s A \phi_s^A ϕsA,头部姿态相关特征 ψ s A \psi_s^A ψsA

那么,给定输入 ( ϕ s ϕ s A ) (\phi_s\phi_s^A) (ϕsϕsA) D A D_A DA可以解码为到由 I A I_A IA I s I_s Is的变换 τ − A \tau^{-A} τA。如果我们在AU-changed人脸 I A I_A IA上使用变换 τ − A \tau^{-A} τA,得到的人脸图像 τ − A ( I A ) = τ − A ( τ A ( I s ) ) \tau^{-A}(I_A)=\tau^{-A}(\tau^A(I_s)) τA(IA)=τA(τA(Is))一定和源人脸 I s I_s Is相似。因此,得到另一约束条件,如公式3所示:
L c y c A = ∥ τ − A ( τ A ( I s ) ) − I s ∥ 1 (3) \mathfrak{L}_{cyc}^A=\|\tau^{-A}(\tau^A(I_s)) - I_s\|_1 \tag{3} LcycA=τA(τA(Is))Is1(3)
除此之外,我们还要考虑特征级别的一致性。考虑到图像 I s I_s Is经历AU相关的变换得到图像 I A I_A IA,因此 I s I_s Is I A I_A IA在头部姿态特征上应该具有相似性, I t I_t It I A I_A IA在AU特征上应该具有相似性,因此我们得到公式5:
L e m b A = ∥ ψ s A − ψ s ∥ 2 + ∥ ϕ s A − ϕ t ∥ 2 (5) \mathfrak{L}_{emb}^A =\|\psi_s^A - \psi_s\|^2+\|\phi_s^A - \phi_t\|^2 \tag{5} LembA=ψsAψs2+ϕsAϕt2(5)

pose-changed的循环中:
给定输入 ( ψ s ψ t ) (\psi_s\psi_t) (ψsψt) D P D_P DP解码到由 I s I_s Is I P I_P IP的变换 τ P \tau^P τP。基于变换 τ P \tau^P τP,我们可以得到pose-changed人脸 I P = τ P ( I s ) I_P=\tau^P(I_s) IP=τP(Is)。并定义 I P I_P IP经过编码器得到AU相关特征 ϕ s P \phi_s^P ϕsP,头部姿态相关特征 ψ s P \psi_s^P ψsP

那么,给定输入 ( ψ s ψ s A ) (\psi_s\psi_s^A) (ψsψsA) D P D_P DP可以解码为到由 I P I_P IP I s I_s Is的变换 τ − P \tau^{-P} τP。如果我们在pose-changed人脸 I P I_P IP上使用变换 τ − P \tau^{-P} τP,得到的人脸图像 τ − P ( I P ) = τ − P ( τ P ( I s ) ) \tau^{-P}(I_P)=\tau^{-P}(\tau^P(I_s)) τP(IP)=τP(τP(Is))一定和源人脸 I s I_s Is相似。因此,得到另一约束条件,如公式4所示:
L c y c P = ∥ τ − P ( τ P ( I s ) ) − I s ∥ 1 (4) \mathfrak{L}_{cyc}^P=\|\tau^{-P}(\tau^P(I_s)) - I_s\|_1 \tag{4} LcycP=τP(τP(Is))Is1(4)
除此之外,我们还要考虑特征级别的一致性。考虑到图像 I s I_s Is经历头部姿态相关的变换得到图像 I P I_P IP,因此 I s I_s Is I P I_P IP在AU特征上应该具有相似性, I t I_t It I P I_P IP在头部姿态特征上应该具有相似性,因此我们得到公式6:
L e m b P = ∥ ϕ s P − ϕ s ∥ 2 + ∥ ψ s P − ψ t ∥ 2 (6) \mathfrak{L}_{emb}^P =\|\phi_s^P - \phi_s\|^2+\|\psi_s^P - \psi_t\|^2 \tag{6} LembP=ϕsPϕs2+ψsPψt2(6)


Experiment

Implementation details Detailed

编解码器的设计如下图所示:
在这里插入图片描述
Loss 函数如公式7所示
L = 1 W × H × 3 L r e c + λ 1 W × H × 2 L 1 A + λ 2 W × H × 3 ( L c y c A + L c y c P ) + λ 3 256 ( L e m b A + L e m b P ) (7) \mathfrak{L} = \frac{1}{W \times H \times 3} \mathfrak{L}_{rec} + \frac{\lambda_1}{W \times H \times 2}\mathfrak{L}_1^A+\frac{\lambda_2}{W \times H \times 3}(\mathfrak{L}_{cyc}^A+\mathfrak{L}_{cyc}^P) +\frac{\lambda_3}{256}(\mathfrak{L}_{emb}^A+\mathfrak{L}_{emb}^P) \tag{7} L=W×H×31Lrec+W×H×2λ1L1A+W×H×3λ2(LcycA+LcycP)+256λ3(LembA+LembP)(7)

训练的过程中采用了Curriculum Learning的方式,即难度递增的策略进行训练。

Comparisons with other methods

表中数值均为F1-score:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Analysis

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/447150
推荐阅读
相关标签
  

闽ICP备14008679号