赞
踩
Self-supervised Representation Learning from Videos for Facial Action Unit Detection(CVPR 2019)
Paper PDF
Facial Action -> Functional -> usual methods -> problem -> proposed method
人脸作为人类之间交流所面对的人体器官,可以显示出无数种信息。为了全面的研究面部的运动模式,Ekman和Friesen开发了面部动作编码系统(FACS),它定义了一套独特的约40个原子级别的面部肌肉动作,称为动作单元(Action Units, AUs)。通过对人脸面部运动单元的检测,我们可以从中获取大量与人内心活动有关的信息,并具有广泛的应用场景。比如,表情识别、健康评估、人机交互等等。通常对AUs的检测算法按照类型可以分为以下三种:
由于给视频中人脸打面部运动单元标签的任务困难,导致在AUs检测方面的数据集极为缺乏,小样本的监督学习也容易造成过拟合。对此,本篇论文提出基于检测运动信号的自监督学习方式。考虑到不同帧中人物头部的差异由面部的AUs变化和头部姿势的改变两者共同造成,本文提出一种Twin-Cycle Autoencoder(ACAE)来同时学习头部姿势相关和面部运动单元相关的运动信息,并以此来解耦两者,达到提取discriminative的AUs表征。具体来讲,TCAE通过预测AUs相关和头部姿势相关的运动,将源帧的AUs和头姿态转换为目标帧的AUs和头部姿态。
整个网络架构如上图所示,可以大致分为以下三个模块:
TCAE首先对源人脸图像和目标人脸图像使用编码器分别获得各自的AU特征( ϕ s , ϕ t \phi_s,\phi_t ϕs,ϕt)和头部姿势特征( ψ s , ψ t \psi_s,\psi_t ψs,ψt)。TCAE将 ϕ s , ϕ t \phi_s,\phi_t ϕs,ϕt级联在一起输入AU-related解码器 D A D_A DA, D A D_A DA用来解码AUs是如何从源脸变换为目标脸。同理,将 ψ s , ψ t \psi_s,\psi_t ψs,ψt级联在一起输入pose-related解码器 D P D_P DP, D P D_P DP用来解码头部姿势是如何从源脸变换为目标脸。
论文中将这种变换定义为像素的移动。比如AUs造成的变换可以定义为一个矩阵 τ A ∈ R W × H × 2 \tau^A \in \mathbb{R}^{W \times H \times2} τA∈RW×H×2,其中 W , H W,H W,H分别代表图像的宽和高。 τ x y A = ( δ x , δ y ) \tau^A_{xy}=( \delta_x ,\delta_y) τxyA=(δx,δy),其中 δ x , δ y \delta_x ,\delta_y δx,δy分别表示在位置 ( x , y ) (x,y) (x,y)上的像素在x方向和y方向的位移量。因此, τ A \tau^A τA作为一种变换,将原始人脸改变为AU-changed的人脸,即 I s ↦ I A I_s \mapsto I_A Is↦IA。
与之相似,我们从pose-related解码器 D P D_P DP从获得与头部姿态相关的像素的移动 τ P \tau^P τP。 τ P \tau^P τP作为一种变换,将原始人脸改变为pose-changed的人脸,即 I s ↦ I P I_s \mapsto I_P Is↦IP。
为了区分AU和位姿变化引起的位移,我们在
τ
A
\tau^A
τA上加入L1正则化,以保持AU-related运动的稀疏性和精微性,如式所示:
L
1
A
=
∑
x
,
y
∥
τ
x
y
A
∥
1
(1)
\mathfrak{L}_1^A=\sum_{x,y} \| \tau_{xy}^{A}\|_1 \tag{1}
L1A=x,y∑∥τxyA∥1(1)
TCAE通过线性组合的方式来整合由
τ
A
\tau^A
τA和
τ
P
\tau^P
τP造成的帧间差异。
τ
x
y
=
α
x
y
A
τ
x
y
A
+
α
x
y
P
τ
x
y
A
s
.
t
.
α
x
y
A
+
α
x
y
P
=
1
τ
\tau
τ作为变换,将源人脸映射为预测的目标人脸。因此,我们需要限制变换后的人脸与目标人脸的相似度,如式2所示:
L
r
e
c
=
∥
τ
(
I
s
)
−
I
t
∥
1
(2)
\mathfrak{L}_{rec} = \| \tau(I_s)-I_t \|_1 \tag{2}
Lrec=∥τ(Is)−It∥1(2)
其中,
I
s
,
I
t
I_s,I_t
Is,It分别为源人脸图片和目标人脸图片。
在 AU-changed 的循环中:
给定输入
(
ϕ
s
ϕ
t
)
(\phi_s\phi_t)
(ϕsϕt),
D
A
D_A
DA解码到由
I
s
I_s
Is到
I
A
I_A
IA的变换
τ
A
\tau^A
τA。这个变换具体为一个(
W
×
H
×
3
W \times H \times 3
W×H×3)矩阵,包含每个像素点的mask和偏移量。基于变换
τ
A
\tau^A
τA,我们可以得到AU-changed人脸
I
A
=
τ
A
(
I
s
)
I_A=\tau^A(I_s)
IA=τA(Is)。并定义
I
A
I_A
IA经过编码器得到AU相关特征
ϕ
s
A
\phi_s^A
ϕsA,头部姿态相关特征
ψ
s
A
\psi_s^A
ψsA。
那么,给定输入
(
ϕ
s
ϕ
s
A
)
(\phi_s\phi_s^A)
(ϕsϕsA),
D
A
D_A
DA可以解码为到由
I
A
I_A
IA到
I
s
I_s
Is的变换
τ
−
A
\tau^{-A}
τ−A。如果我们在AU-changed人脸
I
A
I_A
IA上使用变换
τ
−
A
\tau^{-A}
τ−A,得到的人脸图像
τ
−
A
(
I
A
)
=
τ
−
A
(
τ
A
(
I
s
)
)
\tau^{-A}(I_A)=\tau^{-A}(\tau^A(I_s))
τ−A(IA)=τ−A(τA(Is))一定和源人脸
I
s
I_s
Is相似。因此,得到另一约束条件,如公式3所示:
L
c
y
c
A
=
∥
τ
−
A
(
τ
A
(
I
s
)
)
−
I
s
∥
1
(3)
\mathfrak{L}_{cyc}^A=\|\tau^{-A}(\tau^A(I_s)) - I_s\|_1 \tag{3}
LcycA=∥τ−A(τA(Is))−Is∥1(3)
除此之外,我们还要考虑特征级别的一致性。考虑到图像
I
s
I_s
Is经历AU相关的变换得到图像
I
A
I_A
IA,因此
I
s
I_s
Is和
I
A
I_A
IA在头部姿态特征上应该具有相似性,
I
t
I_t
It和
I
A
I_A
IA在AU特征上应该具有相似性,因此我们得到公式5:
L
e
m
b
A
=
∥
ψ
s
A
−
ψ
s
∥
2
+
∥
ϕ
s
A
−
ϕ
t
∥
2
(5)
\mathfrak{L}_{emb}^A =\|\psi_s^A - \psi_s\|^2+\|\phi_s^A - \phi_t\|^2 \tag{5}
LembA=∥ψsA−ψs∥2+∥ϕsA−ϕt∥2(5)
pose-changed的循环中:
给定输入
(
ψ
s
ψ
t
)
(\psi_s\psi_t)
(ψsψt),
D
P
D_P
DP解码到由
I
s
I_s
Is到
I
P
I_P
IP的变换
τ
P
\tau^P
τP。基于变换
τ
P
\tau^P
τP,我们可以得到pose-changed人脸
I
P
=
τ
P
(
I
s
)
I_P=\tau^P(I_s)
IP=τP(Is)。并定义
I
P
I_P
IP经过编码器得到AU相关特征
ϕ
s
P
\phi_s^P
ϕsP,头部姿态相关特征
ψ
s
P
\psi_s^P
ψsP。
那么,给定输入
(
ψ
s
ψ
s
A
)
(\psi_s\psi_s^A)
(ψsψsA),
D
P
D_P
DP可以解码为到由
I
P
I_P
IP到
I
s
I_s
Is的变换
τ
−
P
\tau^{-P}
τ−P。如果我们在pose-changed人脸
I
P
I_P
IP上使用变换
τ
−
P
\tau^{-P}
τ−P,得到的人脸图像
τ
−
P
(
I
P
)
=
τ
−
P
(
τ
P
(
I
s
)
)
\tau^{-P}(I_P)=\tau^{-P}(\tau^P(I_s))
τ−P(IP)=τ−P(τP(Is))一定和源人脸
I
s
I_s
Is相似。因此,得到另一约束条件,如公式4所示:
L
c
y
c
P
=
∥
τ
−
P
(
τ
P
(
I
s
)
)
−
I
s
∥
1
(4)
\mathfrak{L}_{cyc}^P=\|\tau^{-P}(\tau^P(I_s)) - I_s\|_1 \tag{4}
LcycP=∥τ−P(τP(Is))−Is∥1(4)
除此之外,我们还要考虑特征级别的一致性。考虑到图像
I
s
I_s
Is经历头部姿态相关的变换得到图像
I
P
I_P
IP,因此
I
s
I_s
Is和
I
P
I_P
IP在AU特征上应该具有相似性,
I
t
I_t
It和
I
P
I_P
IP在头部姿态特征上应该具有相似性,因此我们得到公式6:
L
e
m
b
P
=
∥
ϕ
s
P
−
ϕ
s
∥
2
+
∥
ψ
s
P
−
ψ
t
∥
2
(6)
\mathfrak{L}_{emb}^P =\|\phi_s^P - \phi_s\|^2+\|\psi_s^P - \psi_t\|^2 \tag{6}
LembP=∥ϕsP−ϕs∥2+∥ψsP−ψt∥2(6)
编解码器的设计如下图所示:
Loss 函数如公式7所示
L
=
1
W
×
H
×
3
L
r
e
c
+
λ
1
W
×
H
×
2
L
1
A
+
λ
2
W
×
H
×
3
(
L
c
y
c
A
+
L
c
y
c
P
)
+
λ
3
256
(
L
e
m
b
A
+
L
e
m
b
P
)
(7)
\mathfrak{L} = \frac{1}{W \times H \times 3} \mathfrak{L}_{rec} + \frac{\lambda_1}{W \times H \times 2}\mathfrak{L}_1^A+\frac{\lambda_2}{W \times H \times 3}(\mathfrak{L}_{cyc}^A+\mathfrak{L}_{cyc}^P) +\frac{\lambda_3}{256}(\mathfrak{L}_{emb}^A+\mathfrak{L}_{emb}^P) \tag{7}
L=W×H×31Lrec+W×H×2λ1L1A+W×H×3λ2(LcycA+LcycP)+256λ3(LembA+LembP)(7)
训练的过程中采用了Curriculum Learning的方式,即难度递增的策略进行训练。
表中数值均为F1-score:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。