当前位置:   article > 正文

【论文学习】SGPN:一种形状和生成先验相结合盲脸复原的方法

sgpn

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!

前言

所谓,指的是事先不能知道图像的退化类型的退化参数,因此在实际的图像修复中具有较高的难度,尤其是图像遭受多种退化时,往往导致图像难以反应其高清状态下的内容。

盲脸恢复:旨在从低质量的人脸图像中重建高质量的图像。尽管现有的基于生成的方法在生成高质量图像方面取得了重大进展,但往往无法从严重退化的输入中恢复自然的面部形状和高保真的面部细节。

SGPN将形状和生成先验相结合,以生成具有清晰面部形状和逼真面部细节的图像。
①通过三维重建来恢复合理的面部几何形状。

②采用预训练的人脸生成器作为解码器,生成逼真的高分辨率图像。

③自适应特征融合块(AFFB)将从低质量输入和渲染的3D图像中提取的分层空间特征插入到解码器中。

④引入混合水平损失,以与其他网络部分一起联合训练形状和生成先验,从而使两个先验更好地适应盲脸恢复任务。

SGPN的源代码已在Github(SGPN)上公开发布,并提供了相关论文、项目页面和演示。该方法为盲脸复原提供了一种新的思路,也为其他图像复原领域的研究提供了借鉴和参考。


论文

论文名: Blind Face Restoration via Integrating Face Shape and Generative Priors
论文网址: 点我转跳哟

恢复效果:
在这里插入图片描述

网络框架

在这里插入图片描述
①网络包含形状恢复模块和与生成先验模块;
②自适应特征融合块作为基本生成GAN块;
③图像级重建损失Lrec和对抗损失Ladv被用来增强图像的保真度和真实感;
④网格级三维地标损失L3dlm和网格损失Lmesh被用来增强形状恢复。

网络详解

形状先验: 对于严重退化的低质量图像先应用形状恢复模块,使用ResNet50对3DMM系数进行回归,然后将系数转换为脸型S和彩色纹理C。将三维重建投影到二维图像平面上,以获得渲染的三维图像。3DMM系数和渲染后的三维图像作为形状先验。

生成先验: 以StyleGAN2作为生成先验。使用自适应特征融合块来结合形状先验生成先验。具体来说,使用一个潜在编码器从LQ图像中提取潜在向量zlq。将3DMM系数z3d和潜在向量zlq连接在一起,生成StyleGAN2的中间潜在代码w。然后将中间代码广播到所有GAN块以调制卷积权重。LQ图像Ilq和渲染的3D图像I3d通过双分支编码器生成多分辨率空间特征Flq和F3d,这将进一步连接到GAN块内的特征。

形状恢复模块

利用ResNet-50从输入的LQ图像 Ilq 中预测3DMM系数、光照和人脸姿态。
在这里插入图片描述

输出是一个向量z3d = (α,β, δ, γ,p)∈R257,其中α∈R80, β∈R64, δ∈R80, γ∈R27, p∈R6表示巴塞尔人脸模型(BFM)身份,表情,BFM纹理,球面谐波照明和姿态的系数。

如下图所示,利用ResNet-50可以从输入的LQ图像中恢复比原始D3DFR模型和微调模型更好的形状。
在这里插入图片描述

先验集成

人脸生成先验网络能够生成高质量的人脸图像。以前的工作已经使用StyleGAN作为面部之前从LQ图像恢复HQ图像。然而,对于严重退化的LQ图像,这些方法可能会产生低保真度的图像和不自然的形状(如GFP-GAN、GPEN)。相比之下,形状先验可以从LQ图像中恢复合理的形状。

因此形状和生成先验集成模块来利用它们的优点。从LQ图像中提取潜在向量zlq。将三维系数z3d和潜向量zlq的拼接映射到潜在空间wW,来调制StyleGAN的卷积权值。需要注意的是将映射网络深度是2,并非8。
在这里插入图片描述

为了获得高保真和忠实的复原效果,将生成模型的条件设置为从 Ilq 和 I3d 中提取的空间特征 Flq 和 F3d。渲染的3D图像可以提供清晰的面部结构,但是不能重建口腔内区域、眼睛或面部的配饰(如太阳镜)。自适应特征融合块(AFFB)被用来自适应融合Flq和F3d

在分辨率尺度 i 下,首先生成一个空间掩模 M,
在这里插入图片描述
其中StyleConv操作表示StyleGAN中的风格卷积。生成的空间掩码M大小与Filq和Fi3d相同。1×1 Conv之后是一个Sigmoid,使得掩码值在0到1之间。混合特性表述为:
在这里插入图片描述

计算通道尺寸的平均值来显示空间掩码的可视化。128、256和512尺度下的可视化效果如下图所示。可以看到,太阳镜区域比皮肤区域有相对较高的激活。结果表明,空间特征Filq对太阳区域的贡献大于3D空间特征Fi3d
Note: 掩码是在没有监督的情况下学习的,所以Fi3d的背景区域很难被所有通道完全掩码。

在这里插入图片描述

损失函数

损失可以分为两类:①图像级损失②网格级损失。

图像级损失: Lrec 重建损失、 Ladv对抗损失
在这里插入图片描述
在这里插入图片描述

网格级损失: 使用预训练的D3DFR从 I 和 Ihq 预测3D网格。构建的网格包含约35.7K个顶点,从中提取了68个预定义的3D地标点。地标损失公式为:
在这里插入图片描述
其中,L和Llm 分别表示 I 和 Ihq预测的三维地标。

从LQ图像预测准确的3D重建是非常重要的。在BFR任务之前,引入了网格损失Lmesh来更好地适应形状,再利用预训练好的D3DFR从Ihq中预测形状Shq和颜色纹理Chq。网格损失迫使S和C 在所有顶点都接近Shq和Chq
在这里插入图片描述
其中 i 表示顶点索引。

总体的损失如下:
在这里插入图片描述
其中λadv = 1 λlm = 100 λvt = 100。

实验

数据集

训练集: FFHQ,70000张人脸,附带水平翻转

测试集-合成: CelebAHQ,3000张人脸

测试集-真实: CelebA、WIDERFACE和LFW中采集LQ图像,1247张。

退化方式:
在这里插入图片描述
训练细节:

  • 训练时间为2天,使用8个Tesla V100 gpu,说到这里,不得不羡慕算力呀
  • batch size:32
  • 优化器:Adam
  • 迭代次数:400K
  • 学习率:0.002

推理速度: 差不多一秒处理10张5122的图像,一半时间开销在生成形状先验,另一半则是生成图像(这部分和其他方法差不多)。

在这里插入图片描述

实验-合成数据

盲脸复原: 定量结果和定性结果如下:

在这里插入图片描述

在这里插入图片描述

在LPIPS和FID得分上取得了明显更好的结果,表明输出更接近原始HQ图像分布。模型达到了与其他竞争方法相当的PSNR和SSIM分数。

人脸超分: 定量结果和定性结果如下:
在这里插入图片描述
在这里插入图片描述
三个尺度因子下都获得了最好的LPIPS和FID分数。比例因子为16倍时的视觉对比,由于精心设计了形状先验和生成先验的组合,SGPN能够在大姿势下生成更好的面部形状。

实验-真实数据

定量结果和定性结果如下,SGPN在FID和NIQE上都取得了卓越的性能。

在这里插入图片描述
在这里插入图片描述

消融实验

以下述三个变体进行消融比较。
①变体A (w/o F3d)表示移除3D图像的编码器分支。只有空间特征Flq与GAN块中的特征相连接。
②变体B (w/o AFFB)表示去除自适应特征融合块。编码后的空间特征Flq和F3d直接相加,而不是自适应融合。
③变体C (w/o L3dlm,Lmesh)表示在训练过程中去除网格级损失。采用微调后的D3DFR模型构建三维图像。
在这里插入图片描述

在这里插入图片描述

拓展实验(Inpainting)

在这里插入图片描述

在这里插入图片描述

总结

总结:SGPN是一种将人脸形状与生成先验相结合的盲人脸复原方法。形状恢复模块首先从低质量的观测数据中预测3D模的参数,然后绘制出具有准确面部结构信息的新人脸图像。然后,形状与生成先验集成模块将先验与自适应特征融合块无缝结合。同时,将人脸形状和生成先验与网络其他部分进行联合优化,使两个先验更好地适应盲人脸恢复任务。

局限性:SGPN依靠3DMM模型来恢复脸型。更好的三维人脸模型和三维人脸重建网络可以进一步提高修复质量。此外,SGPN主要关注面部部分,可能忽略背景区域的恢复。身份信息实际上很难从完全降级的图像中恢复。尽管使用了3D先验,但恢复的人脸可能与严重退化的输入不具有相同的身份。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。

参考

[1]. Feida Z, Junwei Z, Wenqing C, Xinyi Z, Xiaozhong J, Chengjie W, Ying T, et al. Blind Face Restoration via Integrating Face Shape and Generative Priors[C], Computer Vision and Pattern Recognition, 2022, 2022(1): 7652-7661.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/316506
推荐阅读
相关标签
  

闽ICP备14008679号