赞
踩
近年来,得益于深度生成模型的发展,人脸的操控技术取得了巨大突破,以Deepfake为代表的人脸视频深度伪造技术在互联网快速流行,受到了学术界和工业界的广泛重视。这种深度伪造技术通过交换原始人脸和目标人脸的身份信息或编辑目标人脸的属性信息来合成虚假的人脸视频。人脸深度伪造技术激发了很多相关的娱乐应用,如使用面部替换技术将使用者的人脸替换到某段电影片段中,或使用表情重演技术来驱动某个著名人物的静态肖像等。但当前人脸深度伪造技术仍处于快速发展阶段,其生成的真实感和自然度仍有待进一步提升。另一方面,这类人脸深度伪造技术也很容易被不法分子恶意使用,用来制作色情电影、虚假新闻,甚至被用于政要人物来制造政治谣言等,这对国家安全与社会稳定都带来了极大的潜在威胁,因此伪造人脸视频的防御技术至关重要。为了降低深度伪造人脸视频所带来的负面影响,众多学者对伪造人脸视频的检测鉴别技术进行了深入研究,并从不同视角提出了一系列防御方法。然而由于数据集分布形式单一、评价标准不一致、主动性不足等问题,使得防御技术在走向实用的道路上仍有很长一段距离。事实上,人脸深度伪造与防御技术的研究仍旧处在发展期,其技术的内涵与外延正在快速的更新与迭代。本综述将对迄今为止的主要研究工作进行科学系统的总结与归纳,并对现有技术的局限性做简要分析。最后,本文将探讨人脸深度伪造与检测技术的潜在挑战与发展方向,为领域内未来的研究工作提供借鉴。
(1)基于图像域特征编码的方法
现阶段,全智能化的人脸深度伪造技术发展并不完备,其中主流的伪造技术主要从人脸图像域的角度出发,通过对人脸图像进行特征编码、重构的操作方式实现篡改,篡改类型可以概括为面部替换和属性编辑两大类。其中面部替换旨在用原始人脸面部替换目标人脸的面部区域,涉及目标图像身份属性的变化。而属性编辑主要针对目标人脸身份信息外的各类属性进行编辑篡改,如使用表情迁移、唇形篡改等。
面部替换的经典算法是“Deepfakes”,主体结。构基于自动编码器实现。对于原始人脸A和目标人脸B,训练权值共享的编码器用于编码人脸特征,解码端A和B各自训练独立解码器用于重构人脸。
在测试阶段,用训好的编码器对目标B进行编码,再用训好的A解码器来解码B的特征,以实现A与B之间的人脸替换。为了达到更好的替换效果和更佳的可操控性,对抗损失和人脸解耦重构等技术也被用于深伪算法进行约束与监督,并产生了很多变体方法,如FSGAN、FaceShifter等,使得生成。的伪造人脸质量大幅提高。属性编辑算法的基本原理与面部替换类似,但该类算法以人脸属性为对象进行篡改,不涉及到目标人物身份信息的改变,通常用来进行人脸的表情迁移、唇形篡改等应用。代表算法包括早期的表情迁移方法Face2Face、特定人唇形篡改方法ObamaNet和近期应用火热的表情迁移方法First Order Motion以及唇形篡改方法Wave2Lip等。
人脸深度伪造作为一项应用技术,可用于电影行或一般的大众娱乐领域,此外也可作为技术反制手段,用于针对特殊政治、公众人物的人脸视频塑造。很多相关的工具和商业软件已经被开发,包括以DeepFaceLab[8]为代表的支持人工干预的全流程人脸伪造开源项目和以风靡一时的ZAO[9]为代表的换脸应用软件。开源工具对人脸深度伪造技术的发展起到了巨大的推动作用,表1列举了部分高影响力的人脸深度伪造工具与商业软件。总体来说,人脸深度伪造相关的开源项目大多从技术角度出发,使用方式的灵活性较高,但对工作的硬件环境和使用者的技术能力有一定要求,而商业软件主要面向不具备专业技术的大众用户,使用便利程度高,但仅能用于指定场景的娱乐用途。
(2)基于隐变量编辑的方法
在人脸伪造相关技术中,有一类方法基于对抗生成网络(GAN)来实现。与基于图像域特征编码的
方法不同,基于GAN实现的方法依赖干已训练好的 GAN网络,探索人脸图像各属性在隐空间中对应的隐变量,找到待篡改的语义方向,再利用预训练好的GAN生成器来生成编辑后的人脸。这类方法需要在图像隐空间进行操作,对于已知分布的生成人脸图像可以实现高自由度的编辑和高真实感的伪造,但对于真实人脸图像,首先需要将其映射到隐空
间,此时非常依赖GAN翻转(GANInversion)技
术的效果。这类方法可探索性强,且思路多样化,近期在学术界得到了快速发展.
(1)被动式检测方法
现阶段的Deepfake防御主要指针对深伪媒体的被动式检测,即在无辅助信息的条件下对伪造人脸视频进行检测与鉴别,这个任务本质上是一个二分类任务,判断给定的人脸媒体文件是真还是假。二分类任务在多媒体取证、计算机视觉等领域都已有深入研究,但深度伪造的检测具有其特殊性,既不同于一般取证场景下像素级的修改检测,也不同于计算机视觉中语义级的理解分类,而是与二者都有关联但又有实质差别的一种技术。现阶段的 Deepfake的被动式检测方法也大多从这两个领域中借鉴思路,根据检测方法的特点,可以概括为三
类。
:有伪造样本学习方法
这类方法的核心特点是利用真假成对数据作为训练驱动,模型学习的过程需要有伪造人脸样本的参与。通过人工设计或神经网络挖掘的形式提取到真假人脸的可区分特征,从而进行分类。根据提取特征方式的不同,这类方法可分为基于人工特征的方法和基于深度学习方法两种。其中基于人工特征的检测方法多见于早期阶段,针对伪造技术不完善导致的篡改痕迹进行特征提取,如利用传统图像取证中的隐写分析特征[12],或捕捉眨眼异常、头面姿势不一致、异瞳和牙齿细节异常[13]等。而基于深度学习的方法则更多建立在深度神经网络强大的图像理解能力之上,从媒体的空域、时域、频域等角度挖掘可鉴别的细节特征。一些经典的网络结构如 XceptionNet、EfficientNet等在deepfake检测任务中发挥了良好的效果。在此基础上,TwO- branch[14]采用了双向LSTM来寻找伪造视频的时序伪像,F3-Net[15]通过精心设计的局部频域统计模块从频域的角度放大了伪造带来的可检测痕迹, MPSM[16]为特征图设计了块相似度计算模块以捕捉空域和频域特征上的篡改痕迹,均取得了良好的。
效果。Multi-Attention17 首次将deepfake检测定
义为细粒度分类任务,采用了多个注意力图来响应人脸图像的不同区域和不同注意力点,以定位局部且细微的篡改伪像。SPSL[18]则通过分析伪造算法中普遍存在的上采样过程,从相位谱中捕捉频域
伪造痕迹,实现了更为通用的检测。 6 隐者联盟
一笑琅然:
:无伪造样本学习方法
与“有伪造样本学习”的方法相对应,“无伪造样本学习”方法的模型训练过程不需要使用伪造人脸的负样本,而是抓住了人脸这一特殊信息载体的某些特性,或抓住了深度伪造过程中某一固有的流程漏洞实现检测与鉴别。典型的方法是Face X- ray[19],其抓住了伪造方法大多需要进行融合操作这一固有流程,进行针对融合操作痕迹的检测,模型训练只需要使用真脸数据和部分人工制作的非人脸融合图像,不需成对的真假脸。类似的还有 PCL[20],通过预测融合面具的方式,判断给定人脸是否有融合痕迹或边界的不一致性。这类方法由
干不依赖于真假成对数据,因此对不同的伪造算法
具有较强的迁移检测能力。
:基于多任务迁移的方法
这是最近新兴起的一类方法,其核心分类器依旧是依赖于成对真假数据进行训练,与前述方法最大的不同在于,该类方法会利用其它任务中的预训练模型或预筛选特征,在deepfake的真假数据对,进行微调。代表方法Lipforensics,利用了唇读模型这一与人脸相关的分类模型,迁移到 deepfake检测的任务中来,特征提取过程与唇读任务一致,但最终的目标是利用精准的唇读,区分真假唇的差别,从而实现真伪鉴别。
(2)主动式防御
主流的伪造防御技术大多通过事后取证的方式进行,属于被动式检测方法,但此时往往伪造多媒体的危害已经形成。因此,近期一些主动式防御的工作被提出。如Huang等人提出的基于对抗攻击
和数据毒化的人脸主动干扰方法,在不影响人脸多。
媒体数据视觉质量的前提下,干扰伪造者的模型训练过程,使其难以利用被保护的数据进行伪造。此外,主动式防御也可结合信息隐藏中的鲁棒水印以及模型水印等技术,锁定伪造数据的泄露途径,实现主动取证.
Combining EfficientNet and Vision Transformers for Video Deepfake Detection
Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization
Video Face Manipulation Detection Through Ensemble of CNNs
Lip Sync Matters: A Novel Multimodal Forgery Detector
FaceForensics++: Learning to Detect Manipulated Facial Images
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。