赞
踩
给定source face x s x_s xs,包含了pose guidance,以及target face x t x_t xt,包含了reference appearance,学习的目标是生成一幅图像包含 x s x_s xs的pose/expression,以及 x t x_t xt的identity
Shape Encoder
E
E
E
Shape Encoder
E
E
E的网络结构和文献[34, 35]中的boundary encoder一模一样,将人脸图像编码为一个15通道的heatmap,分别对应人脸不同的部分,然后涂上不同的颜色,得到face parsing maps
此外,增加额外的2个gaze channels,
Shape Encoder E E E在WFLW数据库上进行预训练,gaze channels在EOTT数据库上进行预训练,预训练完成后,整个Shape Encoder E E E被frozen
Appearance Auto-Encoder
F
F
F
Appearance Auto-Encoder
F
F
F包含Encoder部分以及Decoder部分
F F F需要学习人脸图像中的identity information和local facial details
F F F的Decoder负责重构人脸图像,为了保证生成图像中的identity,将Decoder过程中的feature maps拼接到Semantically Adaptive Decoder D D D中(Figure 3中的橘黄色箭头)
为了保证 F F F不受shape的影响,……
Semantically Adaptive Decoder
D
D
D
原本可以采用U-Net的结构,现在使用了multi-scales SPADE blocks,就可以去掉U-Net的Encoder部分
目前为止的模型在生成facial details(如胡子、皱纹)仍然存在问题,而warping-based methods生成facial details的效果比较好,因此提出一个FusionNet结构,如Figure 4所示,接收生成图像以及warping的结果,生成一个mask用于融合两幅图像
L
t
o
t
a
l
=
L
r
e
e
n
a
c
t
+
λ
L
a
p
p
r
e
c
o
n
s
L
r
e
e
n
a
c
t
=
α
r
L
p
e
r
c
e
p
t
u
a
l
+
α
g
L
G
A
N
+
α
i
L
i
d
(
1
)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。