当前位置:   article > 正文

CVPR 2021 论文大盘点-人脸造假检测篇

人脸伪造检测

随着图像合成技术的成熟,利用一张人脸照片合成假视频/不良视频现象越来越多,严重侵犯个人隐私、妨碍司法公正,所以人脸造假检测越来越重要,学术界的论文也越来越多。

本文总结CVPR 2021 中相关技术论文。共计 9 篇。希望对想要了解这个领域的朋友有帮助!

大家可以在:

https://openaccess.thecvf.com/CVPR2021?day=all

按照题目下载这些论文。

如果想要下载所有CVPR 2021论文,请点击这里:

CVPR 2021 论文开放下载了!

Multi-attentional Deepfake Detection

本次工作中,作者将 deepfake 检测表述为细粒度分类问题进行研究,提出 multi-attentional deepfake 检测网络。具体来说,它由三个关键部分组成:

1、multiple spatial attention heads(多空间注意力头),促使网络注意到不同的局部部分

2、textural feature enhancement block(纹理特征增强块),来放大浅层特征中的细微假象

3、由 attention maps 指导,聚合低层次的纹理特征和高层次的语义特征

此外,为了解决网络的学习困难,进一步引入一个新的区域独立性损失和一个注意力引导的数据增强策略。

通过在不同数据集上的广泛实验,证明了所提出方法必常见的二元分类器更有优势,并取得了最先进的性能。

作者 | Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Tianyi Wei, Weiming Zhang, Nenghai Yu

单位 | 中国科学技术大学;微软

论文 | https://arxiv.org/abs/2103.02406

代码 | https://github.com/yoctta/multiple-attention

1c30f4ed9efaa573bf221703a8bf7ed1.png

Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection

文中所提出的 Frequency-aware discriminative feature learning(频率感知的鉴别特征学习)框架,它采用度量学习和自适应频率特征学习来进行 face forgery detection(人脸造假检测)。

具体来说,设计一个新的 single-center loss(SCL)损失,只压缩自然人脸的类内变化,提升嵌入空间的类间差异。以此,网络可以以较小的优化难度学习更多的鉴别性特征。此外,还开发一个自适应频率特征生成模块,以一种完全由数据驱动的方式挖掘频率线索。基于上述两个模块,整个框架可以以端到端的方式学习更多的鉴别性特征。

通过大量的实验,验证了所提出框架在三个版本的 FF++ 数据集上的有效性和优越性。

作者 | Jiaming Li, Hongtao Xie, Jiahong Li, Zhongyuan Wang, Yongdong Zhang

单位 | 中国科学技术大学;快手

论文 | https://arxiv.org/abs/2103.09096

0dccef566d49328df85f2f906c99e11f.png

MagDR: Mask-guided Detection and Reconstruction for Defending Deepfakes

“一种能够消除对抗样本对 Deepfake 干扰攻击的方法,该方法对防止深度伪造能力滥用提出了新思考。同时,也可用于提升 AI 图像处理的安全性。”

——参考解读 https://cloud.tencent.com/developer/news/797874

作者 | Zhikai Chen, Lingxi Xie, Shanmin Pang, Yong He, Bo Zhang

单位 | 西安交通大学;华为;Tencent Blade Team

论文 | https://arxiv.org/abs/2103.14211

ab81d1c1f87067c0360a85040625bf98.png

Face Forensics in the Wild

在现有的公共基准上,人脸造假检测技术已经取得了巨大的成功。但在多人视频中应用,还不尽如人意。

为了将人脸造假检测提升到一个新的水平,作者在本次工作中,构建一个新的大规模数据集,FFIW-10K,包括 10,000 个高质量的造假视频,平均每帧有三张人脸。操作过程是全自动的,由一个域对抗性的质量评估网络控制,使该数据集具有高度的可扩展性和低人力成本。

除此之外,还设计一个新算法用于多人脸造假检测任务。在只有视频级标签的监督下,该算法探索了多实例学习,并学会自动关注被干预人脸。

通过实验证明,所设计算法在 FFIW-10K 上的造假分类和定位方面都优于代表性的方法,并且在现有的基准上也显示出很高的泛化能力。

作者 | Tianfei Zhou, Wenguan Wang, Zhiyuan Liang, Jianbing Shen

单位 | 苏黎世联邦理工学院;北京理工大学;起源人工智能研究院

论文 | https://arxiv.org/abs/2103.16076

代码 | https://github.com/tfzhou/FFIW

备注 | CVPR 2021 Oral

be7a26be826c339a5aa38d4b36814f46.png

Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features

LRNet  是一个具有高效、鲁棒性的框架,通过对精确的几何特征进行时间建模来检测 Deepfakes 视频。具体来说,设计一个新的校准模块来提高几何特征的精度,使其更具辨别力,并构建了一个 Recurrent Neural Network(RNN)来充分挖掘时间特征。

与以前的方法相比,所提出方法权重更少,且更容易训练。此外,它在检测高度压缩或噪音损坏的视频方面表现出了鲁棒性。在 FaceForensics++ 数据集上达到了 0.999 的 AUC。同时,在面对高度压缩的视频时,性能只轻微下降(-0.042AUC)。

作者 | Zekun Sun, Yujie Han, Zeyu Hua, Na Ruan, Weijia Jia

单位 | 上海交通大学;北京师范大学;UIC

论文 | https://arxiv.org/abs/2104.04480

代码 | https://github.com/frederickszk/LRNet

921ed99d8495146494f191cc6cdfb93f.png

Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection 

作者提出一种新方法:LipForensics,来检测伪造人脸视频。通过利用读唇语学习到的丰富表征,来检测语义上高级口部动作的不一致。实现了对未见伪造类型的最先进的泛化表现,同时对各种常见视频质量降质的鲁棒性明显高于其他方法。满足这两个目标对于现实生活中的人脸伪造检测至关重要,作者称本次工作将是打击假视频的重要进步。

作者 | Alexandros Haliassos, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic

单位 | 帝国理工学院;Facebook,英国

论文 | 

https://openaccess.thecvf.com/content/CVPR2021/papers/Haliassos_Lips_Dont_Lie_A_Generalisable_and_Robust_Approach_To_Face_CVPR_2021_paper.pdf

8ff591e34c36d2e2b660e848fecb7cbc.png

Representative Forgery Mining for Fake Face Detection

北邮提出的RFM 框架,可以在没有精心设计的监督情况下将显著的 forgery(伪造行为)可视化,并使基于通用CNN 的检测器在DFFD 和 Celeb-DF 上实现 SOTA 性能。

作者 | Chengrui Wang, Weihong Deng

单位 | 北邮

论文 | https://arxiv.org/abs/2104.06609

代码 | https://github.com/crywang/RFM

fab979b26f1a9171110eba0bf181e3a6.png

Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain

文中提出一种人脸造假检测方法,Spatial-Phase Shallow Learning(SPSL),它结合空间图像和相位频谱来捕捉人脸伪造的上采样伪影以提高可迁移性,用于人脸造假检测。并从理论上分析了利用相位谱的有效性。此外,还注意到,对于人脸造假检测任务来说,局部纹理信息比高层语义信息更为关键。因此,通过浅化网络来减少感受野,以抑制高层次的特征,并将重点放在局部区域。

实验表明,SPSL 可以在跨数据集评估以及多类分类上达到最先进的性能。

作者 | Honggu Liu, Xiaodan Li, Wenbo Zhou, Yuefeng Chen, Yuan He, Hui Xue, Weiming Zhang, Nenghai Yu

单位 | 中国科学技术大学;阿里

论文 | https://arxiv.org/abs/2103.01856

31723b7fe8067818b3024ac673db11b7.png

Generalizing Face Forgery Detection with High-frequency Features

作者观察到图像的高频噪声不仅去除了颜色纹理,还暴露了真实和篡改区域之间的差异,因此利用高频噪声来提高人脸伪造检测器的泛化能力。

为了充分利用图像的高频特征,精心设计了三个模块。一是多尺度高频特征提取模块,该模块在多个尺度上提取高频噪声,以构成新的模态信息。二是残差引导的空间注意模块,该模块从新的角度引导底层的RGB特征提取器更加专注于伪造痕迹。三是跨模态注意力模块,该模块利用两个互补模态之间的相关性来促进彼此的特征学习。在多个基准数据集的实验表明所提出的检测模型具有优越的泛化性能。

作者 | Yuchen Luo, Yong Zhang, Junchi Yan, Wei Liu

单位 | 上海交大;腾讯

论文 | https://arxiv.org/abs/2103.12376

简介 | CVPR 2021 | 腾讯AI Lab入选论文解读

cf2c241fd2ac04d118bdb272fc88aef3.png

Face Forgery Detection by 3D Decomposition

通过三维分解进行人脸造假检测

本次工作,将人脸图像视为底层三维几何和照明环境干预的产物,并将其分解在计算机图形视图中。具体来说,通过将人脸图像分解为三维形状、普通纹理、身份纹理、环境光和直射光,发现 “魔鬼” 就在直射光和身份纹理上。基于此,提出利用面部细节,也就是直射光和身份纹理的组合,作为检测微妙伪造模式的线索。此外,用监督下的注意力机制突出被操纵的区域,并引入一个双流结构,将面部图像和面部细节一起作为一个多模态任务加以利用。

大量的实验表明,从面部细节中提取的额外特征是有效的,所提出方法达到了最先进的性能。

作者 | Xiangyu Zhu, Hao Wang, Hongyan Fei, Zhen Lei, Stan Z. Li

单位 | 中科院;国科大;北京科技大学;西湖大学

论文 | https://arxiv.org/abs/2011.09737

723cc87b098e61031df0299552c9c96d.png

- END -

编辑:CV君

转载请联系本公众号授权

b4ed04a74cc8c705bbd739c9182d07c1.png

备注:人脸

0ef63b85081914456156dc14b8f1b88e.png

人脸技术交流群

人脸检测、识别、对齐、重建、表情识别、表情迁移,

若已为CV君其他账号好友请直接私信。

在看,让更多人看到  df6f5c1b9f2de1be56f9d7ac96bfdc49.gif

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/890283
推荐阅读
相关标签
  

闽ICP备14008679号