赞
踩
论文链接:https://arxiv.org/pdf/2209.14692.pdf
physical face attack:对于人脸识别来说就是,在物理世界真实人脸上添加对抗扰动。
digital face attack:攻击者可以直接在数字域输入人脸图像上添加扰动。
AFR:automatic face recognition,自动人脸识别。
FPA:face presentation attack,人脸表示攻击。
FAS:face anti-spoofing,人脸反欺骗。
PAD:presentation attack detection,表示攻击检测。
LBP:local binary pattern,局部二值模式,为一个局部纹理描述符,为每个像素分配一个二进制标签,二进制标签由该像素以及与该像素相邻的像素共同决定。
SIFT:scale invariant feature transform,尺度不变特征变换,该特征对图像旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。
HOG:histogram of oriented gradient,方向梯度直方图,通过计算和统计图像局部区域的梯度方向直方图来构成特征。
SURF:speeded up robust feature,加速鲁棒特征,类似于 SIFT,但计算效率高。
LoG:laplacian of gaussian,高斯拉普拉斯特征,2D图像的二阶空间导数,且各向同性。图像的拉普拉斯算子突出显示像素值强度快速变化的区域,因此通常用于边缘检测。
DoG:difference of gaussian,高斯差分特征,利用高斯模糊实现,可有效去除高频域的噪声。
这篇博客主要记录一下综述里的物理人脸攻击部分内容
根据攻击手法和意图,物理人脸攻击可以分为模仿攻击和混淆攻击。下图的 (a)-(d) 为模仿攻击,分别为打印攻击、视频攻击、3D 面具攻击、人体模型。一般来说,打印攻击和视频攻击的攻击成本较低,而 3D 攻击(包括硅胶、树脂、塑料面具)和人体模型攻击的攻击成本较高。下图的 (e)-(h) 为混淆攻击,分别为眼睛攻击、化妆攻击、纹身 or 贴纸攻击、假发攻击,这部分攻击通常混淆真实人脸的部分区域,检测难度大。
在过去的十几年里,相关研究人员在构建 FAS 数据集方面投入了大量精力,以促进 PAD 算法的设计。下图是作者总结出的 FAS 数据集,作者从攻击类型、数据模态、攻击数量以及攻击获取设备等方面进行全面总结。
作者将 PAD 方法分为三类,分别为:传统手工方法、深度学习方法和混合方法。
传统手工方法指的是使用手工提取的特征进行分类,如:LBP 特征、SIFT 特征、HOG 特征、SURF 特征、DOG 特征。深度学习方法则直接从输入的人脸图像中提取深度特征。混合方法则将手工特征提取模块和深度特征提取模块组合成一个框架,综合考虑两种特征后再做出决策。
深度学习在 FAS 方向上的尝试可以追溯到 2014 年,《Learn convolutional neural network for face anti-spoofing》首次提出带有数据预处理的卷积神经网络,如时空增强,实现了良好的性能。《Transfer learning using convolutional neural networks for face antispoofing》发现在 ImageNet 上对 VGG16 进行预训练,并将学习到的知识传递给 FAS,可有效节省计算资源,避免网络的过拟合。随着深度学习网络架构的快速发展,更先进的网络,如:Siamese 和 Transformer 被应用到 FAS 任务中。《Attention-based two-stream convolutional networks for face spoofing detection》,通过基于注意力机制的融合模块,设计了一个将 RGB 特征和多尺度 retinex 特征相结合的 dual-stream 框架,并获得了良好的泛化能力。《Look locally infer globally: A generalizable face anti-spoofing approach》证明了局部人脸 patch 可以有效反映人脸固有的特征。同样地,《Patchnet: A simple face anti-spoofing framework via fine-grained patch recognition》设计了 PatchNet 来挖掘局部信息,并提出了基于非对称 margin 的分类损失和自监督相似度损失来正则化 embedding 空间。一般来说,二分类监督很容易造成模型过拟合。为了缓解训练和测试数据之间的 domain gap,许多方法在训练期间使用了辅助监督,如:binary mask 和 depth map。基于 binary mask 的方法为人脸图像中的每个像素都分配 0/1 标签,而基于 depth map 的方法则利用了人脸上丰富的 3D 结构信息。《Face spoofing detection based on local ternary label supervision in fully convolutional networks》验证了包括局部 depth map 和 局部二分类标签在内的局部标签监督方案优于全局的二分类监督方案。《Deep pixel-wise binary supervision for face presentation attack detection》在特征级别上进行了二分类监督,从而实现了更准确和更鲁棒的检测性能。《Learning deep models for face anti-spoofing: Binary or auxiliary supervision》设计了一个基于 CNN-RNN 的网络架构,同时预测图像的 depth map 以及 rPPG 映射。《Searching central difference convolutional networks for face anti-spoofing》提出了中心差分卷积,该卷积能提取更详细的局部细粒度信息。最近,研究人员发现,近红外图像包含了更丰富的信息,近红外图像反映的是脸部辐射的热量。《Data fusion based two-stage cascade framework for multi-modality face anti-spoofing》提出了一个多模态的两阶段级联框架,融合了 RGB、NIR 及深度图三种模态的数据来进行 PAD。《Face anti-spoofing via adversarial cross-modality translation》提出了一种基于模态转换的 FAS 方法,将 RGB 图像转换成 NIR 图像,从而获得了出色的泛化能力。
为了进一步提高 PAD 的泛化能力,研究人员近期聚焦于域泛化和域自适应算法。域自适应算法旨在在源域中进行学习,并能很好地适应到目标域上。《Unsupervised domain adaptation for face anti-spoofing》第一次用域自适应算法来解决 FAS 问题,作者提出最小化最大均值差异,以对齐高维特征空间中训练集和测试集间的数据分布。《Unsupervised adversarial domain adaptation for cross-domain face presentation attack detection》设计了一种无监督的对抗域适应框架,用于学习鲁棒的域不变特征。域泛化则旨在在源域中学习鲁棒的模型,该模型可以很好地泛化到未知的目标域中。《Single-side domain generalization for face anti-spoofing》提出了单边域泛化模型,在真实人脸这一类别的数据中学习到了紧凑的通用特征。
混合方法旨在同时利用具有判别性的手工特征和强大的深度特征。混合方法可以分成三类,分别为:1)首先提取手工特征,然后将提取的特征输入到神经网络;2)先用深度模型提取深度特征,然后再从深度特征中提取手工特征;3)手工特征和深度特征融合在一起,最终进行分类。
到目前为止,FAS 研究领域仍有许多尚未解决的问题需要妥善解决。一方面,工业界的方法领先于学术界的方法。例如,Apple FaceID 利用了三个模块:点投影仪、泛光灯、红外摄像头,用来捕捉 2D 的红外人脸图像,并进行 3D 人脸重建。而在学术界,大多数 FAS 数据集都过时了。此外,人脸识别过程中的隐私泄露问题也引起了用户们的迫切关注,提出保留用户隐私的 PAD 方法对于解决这些担忧和保护用户隐私等方面上具有重要意义。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。