当前位置:   article > 正文

One Shot Face Swapping on Megapixels论文阅读_celeb-df: a large-scale challenging dataset for de

celeb-df: a large-scale challenging dataset for deepfake forensics

介绍

在这里插入图片描述
存在问题:
首先,由于端到端框架中的压缩表示,信息不足,无法生成高质量的人脸。
其次,对抗性训练是不稳定的,这限制了以前的方法的分辨率只有256×256。
第三,GPU内存的限制使得训训练批被很小的尺寸所限制,这加剧了训练过程的崩溃。

对于本文,首先,为了克服编码器中的信息丢失,我们采用GAN反演方法,提出了一种分层表示人脸编码器(HieRFE),在扩展潜在空间w++中寻找完整的人脸表示,以保持更多的人脸细节,而不是像以前的人脸交换方法那样压缩表示。
其次,为了修改人脸表征,解决以往潜在编码操作方法一次只能修改一个属性的问题,提出了一种新的交换模块——人脸转移模块(FTM),它可以同步控制多个属性,通过非线性轨迹将身份从源图像转移到目标图像,而不需要显式的特征解纠缠。
最后,利用StyleGAN2作为解码器,对交换后的人脸进行合成,避免了不稳定的对抗训练问题,它是固定的,不使用鉴别器进行优化。
MegaFS的模块化设计只需要很少的GPU内存,性能成本可以忽略不计,并且与其他最先进的人脸交换方法相比,它在256×256分辨率下表现相对较好。MegaFS是第一个可以在百万像素上进行一次换脸的方法。建立第一个百万像素级人脸交换数据库,用于公共领域DeepFake检测和人脸图像编辑研究。

换脸方法

特定对象换脸:特定对象上进行训练和测试
DeepFake及其变体使用成对样本进行训练。
Fast face-swap using convolutional neural networks为不同的源身份建模,例如Nicolas Cage的CageNet, Taylor Swift的SwiftNet。
High-resolution neural face swapping for visual effects. 实现了高分辨率的人脸交换,但需要针对不同的受试者训练解码器
针对特定主题的方法对不同的人脸对训练特定的模型既耗时又困难
The deepfake detection challenge (dfdc) preview dataset.
FaceForensics++: Learning to detect manipulated facial images.
Faceforensics: A large-scale video dataset for forgery detection in human faces.
Celeb-df: A large-scale challenging dataset for deepfake forensics.
Deeperforensics-1.0: A large-scale dataset for real-world face forgery detection.
Exposing deep fakes using inconsistent head poses.
Deepfakes: a new threat to face recognition? assessment and detection.
不可知对象换脸:可以应用于任意身份,无需额外训练
Realistic dynamic facial textures from a single image using gans. Realistic Neural Talking Head采用元学习来缓解不同个体的微调痛苦
Faceswapnet: Landmark guided many-to-many face reenactment.提出了一种地标交换器来处理地标的身份泄漏问题。同时,其他思维模式遵循属性解缠启发式,探索新的高保真人脸交换框架。
Fsnet: An identity-aware generative model for image-based face swapping. 将源图像的人脸区域表示为矢量,与非人脸目标图像结合生成交换后的人脸图像。
Towards open-set identity preserving face synthesis.IPGAN将身份和面部属性分离为不同的矢量化表示。
FSGAN和FaceShifter通过其出色的性能实现了最先进的结果。
本文,在训练和测试中,只需要一张源图像和一张目标图像,某些训练需要一个人物的多张照片

GAN反演

基于训练良好的GAN, GAN反演或潜在空间嵌入,试图找到能够准确重建给定图像合成的潜在编码。
需要解决两个问题:确定合适的潜在空间和设计在该空间内搜索最优潜在编码的算法。
对于潜在空间,最早的方法将图像反演到W∈R1×512,
Invertible conditional gans for image editing.
On the ”steer ability” of generative adversarial networks.
Ganspace: Discovering interpretable gan controls.
后期的作品将潜在空间扩展到W+∈R18×512,得到了更好的重建效果。
Image2stylegan: How to embed images into the stylegan latent space?
Image2stylegan++: How to edit the embedded images?
DeepFakes.
Inverting the generator of a generative adversarial network.
对于反演算法,它们要么训练编码器来预测图像的潜在代码
Invertible conditional gans for image editing
Inverting the generator of a generative adversarial network.
Collaborative learning for faster stylegan embedding
要么通过随机初始化的潜在代码优化来最小化预测图像与给定图像之间的误差。
Image2stylegan: How to embed images into the stylegan latent space?
Image2stylegan++: How to edit the embedded images?
Inverting the generator of a generative adversarial network.
Precise recovery of latent vectors from generative adversarial networks.

一些方法结合两者来优化由编码器初始化的潜在代码。
DeepFakes.
Indomain gan inversion for real image editing.

【反演算法是指通过给定的输入数据,预测出生成该数据的潜在代码或表示。在图像处理领域中,反演算法可以用于将图像转换为潜在的编码表示,这样可以对图像进行分析、生成或修改。】

潜在编码操纵

基于观察到通过添加高维方向可以实现语义编辑操作而操纵潜码
W的几个线性语义方向或轨迹被找到.
Ganspace: Discovering interpretable gan controls.
Interpreting the latent space of gans for semantic face editing.
StyleRig和PIE提出通过现有的3D模型[7]来操纵潜在空间,成功地控制了面部姿势、表情和光照。
Stylerig: Rigging stylegan for 3d control over portrait images.
Portrait image embedding for semantic control.
先前的方法基于StyleGAN潜在空间的语义方向是线性的假设,发现StyleGAN具有良好的可控性。
Ganspace: Discovering interpretable gan controls.
Stylerig: Rigging stylegan for 3d control over portrait images.
Disentangling in latent space by harnessing a pretrained generator.
Unsupervised representation learning with deep convolutional generative adversarial networks.
最近,StyleFlow通过非线性轨迹实现了更好的操作效果。
Attribute-conditioned exploration of stylegan generated images using conditional continuous normalizing flows.

方法

在这里插入图片描述
包括三个阶段:人脸编码、潜在代码处理和人脸生成。首先,HieRFE将两张人脸图像投影到潜在空间w++中。然后,FTM对两个分层潜集Ss和St中的Lshigh和Lthigh 进行处理,得到Ls2t。最后,通过预训练的StyleGAN2生成器从Ct、Ltlow和Ls2t中合成交换后的人脸图像ys2t。

层次表示人脸编码器

层次表示人脸编码器(Hierarchical Representation face Encoder, HieRFE)将人脸图像投影到潜在空间w++中,沉积完整的人脸信息。
在这里插入图片描述
HieRFE由基于残差块的ResNet50骨干网、用于特征细化的基于FPN的特征金字塔结构和用于潜在编码预测的18个横向非线性映射网络组成,其中nx表示对应部分的个数。对于非线性映射网络,它包括重复的downsampling, convolution, batchnorm, leakyReLU等层,直到feature map可以作为一个向量池化,即l∈R1×512。
主干预测的StyleGAN2常量输入和最小特征映射预测的4个潜码(记为C∈R4×4×512, Llow∈R4×512)表示底层拓扑信息。其他潜码集合为Lhigh∈R14×512,表示高级语义信息。
【FPN的核心思想是通过建立特征金字塔来捕捉不同尺度上的语义信息。它包含两个主要组件:自顶向下路径(Top-down Pathway)和横向连接(Lateral Connections)。】

多属性同步控制

在第二阶段,提出了人脸传输模块(FTM),以同步方式控制身份信息的多个属性,以满足人脸交换需求。
FTM包含14个面部转移块,其数量与lhigh相等。

在这里插入图片描述
FTM内部,每个面部转移块包含三个相同的转移细胞。经过三个单元处理后,两个细化的向量被一个可学习的权重ω加权,并求和为最终输出。
每个传输单元中,lshigh和lthigh首先连接到lchigh, lchigh收集源图像和目标图像的所有信息。然后通过两步非线性轨迹将lshigh细化为lshigh^
在这里插入图片描述
在这里插入图片描述

其中K1(·)和K2(·)表示两个线性层。【先把s,t两个连接成c,进行sigmoid×s,将c进行Tanh与sigmoid×s相加,生成细化的是s^】
在sigmoid激活后,乘法系数在范围(0,1)内缩放,其中lshigh被设计为丢弃除了身份信息之外的无关语义。
在第二步中,lshigh通过在潜在空间中移位来接受少量的目标语义属性(lchigh)。
类似地,lthigh 是并行处理的,但是在保留其他语义的同时丢弃目标身份。最后,传递的潜码ls2t∈Ls2t可以预测为
在这里插入图片描述
式中,ω∈R1×512为可训练权向量,σ为s型激活。传递潜码Ls2t由所有预测潜码ls2t集合而成。

高保真人脸生成

最后在第三阶段,Cs和Lslow被丢弃,因为它们包含来自xs的可忽略的身份信息。通过给StyleGAN2生成器输入Ct、Ltlow和Ls2t,可以生成交换后的人脸图像ys2t。
以StyleGAN2为解码器,通过潜在空间进行人脸交换,使我们的方法区别于其他人脸交换框架。
首先,它为完整的人脸表示提供了扩展的潜在空间,使详细的人脸生成成为可能.
其次,它使我们的方法在w++中全局操作,而不是局部地在特征映射上操作,这是可取的,因为它可以通过潜在的编码操作进行非线性转换,而不会产生局部失真。
第三,它不需要显式的属性解纠缠,这使得训练过程简单,没有复杂的损失函数和超参数设置。

目标函数

对于MegaFS的每个部分,依次训练了HieRFE和FTM,而StyleGAN2生成器保持不变。
HieRFE的目标函数:根据之前的工作,我们使用三个目标来监督一对输入图像x及其重建图像x^,包括像素级重建损失Lrec,学习感知图像路径相似度(LPISP)损失和身份损失Lid,如下所示:
【LPISP旨在衡量生成图像与真实图像之间的视觉相似度,使用了网络中间层的特征表示,而不是直接比较原始图像的像素值。】
在这里插入图片描述
|| ` ||2表示L2距离,F(·)为感知特征提取器,R(·)为ArcFace识别模型,Cos(·,·)表示两个人脸嵌入的余弦相似度。
此外,由于人脸交换需要姿态和表情的可控性,我们引入地标损失Lldm来测量输入人脸的预测地标与重构人脸的对应地标的差值:
在这里插入图片描述
其中P(·)为面部地标预测因子
在这里插入图片描述
其中λ1 λ2 λ3 λ4是损失权值。此外,在计算损失函数之前,需要调整x和x作为每个模型的输入。
FTM的目标函数:
在这里插入图片描述
此外,利用Lnorm来稳定训练过程。
在这里插入图片描述
在这里插入图片描述
其中,ϕ1、ϕ2、ϕ3、ϕ4、ϕ5为损失权值。最后,当FTM收敛时,该方法可以用于百万像素的人脸交换。

实验

数据库和实验细节

CelebA:该数据集是为人脸检测、人脸地标定位、属性识别与控制、人脸合成而构建的。它包含202,599个名人图像,带有40个标记属性和5个地标位置注释。
CelebA- hq:它是CelebA数据集的高质量版本。CelebA中的所有202,599张图像都通过两个预训练的神经网络进行去噪和超分辨率处理,产生30,000张高质量图像。
FFHQ:数据集包含来自Flickr的7万张百万像素人脸图像。FFHQ有相当大的年龄、种族、性别和背景差异。
FaceForensics++ :由来自youtube的1000个原始视频序列组成,不是为人脸识别而设计的,因此有些视频会显示重复的身份。这些视频序列已被五种自动面部操作方法操纵:Deepfakes, Face2Face, FaceSwap, NeuralTextures和FaceShifter,其中Deepfakes, FaceSwap和FaceShifter是面部交换方法,而Face2Face和NeuralTextures是再现算法。

Adam优化器的学习率设为0.01。我们设置λ1, λ2, λ3和λ4为1,0.8,1和1000。我们将ϕ1、φ 2、φ 3、φ 4和φ 5设置为8、32、24、100000和32。另外,通过运行StyleGAN2,随机抽取20万张人脸作为辅助数据。
在 FaceForensics++的实验上,在CelebA、CelebA- hq、FFHQ和辅助数据上依次训练了HieRFE和FTM共10个epoch。
在CelebA-HQ上的实验中,在FFHQ和辅助数据上依次训练了17个epoch的HieRFE和FTM。至于训练时间,在3个Tesla V100 gpu上大约需要5天。

FaceForensics++上的实验

定性对比
由于facefrensics ++包含三种面部交换方法:FaceSwap, DeepFakes和FaceShifter生成的图像,我们从该数据集中提取相同索引的帧,并将其与提议的MegaFS进行比较。
在这里插入图片描述
对于FaceShifter,它在第1行(凶猛)和第2行(恐惧)中生成错误的表情,其中的表情来自源脸。此外,facshifter无法将身份信息从源脸传递到目标脸,错误将目标脸的胡须保留在第3行和第4行,这使得交换后的脸离目标脸很近。在最后三行中,从目标图像中保留过多的属性,这使得交换的面与目标面相似。。然而,我们的方法成功地保留了源图像的身份信息。

定量对比
首先,对每个原始视频进行10帧均匀采样,并通过MTCNN进行处理,得到10000张对齐的人脸。
编号为043和343的视频显示的是弗拉基米尔·普京,编号为179、183和826的视频显示的是同一个人巴拉克·奥巴马。手动将所有视频分类为889个身份。ID检索以交换后的人脸与源人脸对应身份的top-1匹配率来衡量,用于衡量不同人脸交换方法的身份保持能力。对于姿态和表情误差,采用开源姿态估计器和三维面部模型来提取姿态和表情向量。然后测量交换面与相应目标面之间的L2距离。
在这里插入图片描述
不同的评价指标,面部再现不评价身份指标,主要用于控制面部运动和表情变形,忽视交换身份信息
首先,我们的方法只训练了50万张图像,远远少于用于训练FaceShifter的270万张图像。
此外,facshifter的训练集包含VGGFace,与CelebA-HQ和FFHQ相比,VGGFace包含更多的姿势和表情变化。
其次,StyleGAN2在FFHQ上进行训练,并被证明存在数据偏差。因此,StyleGAN2倾向于生成笑脸。

CelebA-HQ上的实验

定性比较
在这里插入图片描述
交换的脸忠实地保留了原脸的皱纹、虹膜颜色、眉毛和鼻子形状。据我们所知,除了[34]之外,没有其他方法可以在1024×1024分辨率下交换人脸。但是,[34]需要针对不同的身份训练不同的解码器,所以不比较。
High resolution neural face swapping for visual effects.
定量比较
我们在CelebAHQ中随机交换了300,000对人脸图像进行测试。由于3万张原始人脸与30万张交换后的人脸之间的ID检索计算需要90亿次匹配,我们使用cosface作为ID相似度来报告交换后的人脸与对应源人脸的余弦相似度,以减轻计算负担。FID量化了30万张交换的人脸图像与CelebA-HQ数据集的相似性。
在这里插入图片描述

消融实验

潜在空间的选择

验证扩展潜在空间w++相对于w+的优越性。我们训练了另一个网络结构与HieRFE相同的神经网络,将人脸图像投影到潜在空间W+中
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
无法在复杂的照明条件下重塑太阳镜、眼镜、眼睛的凝视和面部。从而验证了潜在空间w++在人脸重建和人脸交换任务的信息保存能力、鲁棒性和可控性等方面都优于W+。

潜在编码操纵的设计

由于StyleGAN2具有分层表示,因此通过任何操作向量的网络来操作潜在代码在启发式上是可行的。然而,我们认为潜码操纵器的设计需要考虑其在向量化信息交换中的适用性。
[Ct, Lthigh , Lshigh ]代替[Ct, Lthigh, Ls2t]进行生成,称为潜在代码替换(LCR),以设想C, Llow和Lhigh的功能。
在这里插入图片描述
ID Injection的设计遵循SPADE ResBlk [40], 2D输入的卷积层被向量的线性层(用黑色箭头表示)所取代。
为了公平比较,我们采用LCR和ID Injection分别生成另外两组30万张交换的人脸图像。
在这里插入图片描述
在这里插入图片描述
由于LCR保留了源图像中过多的语义信息,因此获得了最好的FID。然而,这不利于面部交换,因为来自L thigh的信息丢失了。如图9第三列所示,LCR可以在忽略目标肤色、眼睛状态,唇色(保留源脸)等属性的情况下进行换脸。因此,我们可以有把握地得出结论,身份信息在很大程度上是用Lhigh编码的。因此,cs和Lslow在提议的管道中被丢弃。

对于ID Injection,它的表达误差最小,因为它保留了目标图像中的拓扑信息,而牺牲了源图像中的其他语义部分,属性由目标图像xt主导。例如,忽略源图像中第二行的红唇和最后一行的胡须。

FTM的ID相似度最高,姿态误差最低,在表情误差、FID和视觉愉悦度方面取得了不错的平衡。因此,所提出的FTM比其他两种潜在代码操纵器在人脸交换方面表现得更好。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/118602
推荐阅读
相关标签
  

闽ICP备14008679号