论文阅读笔记—— Multi-attentional Deepfake Detection

作者：Gausst松鼠会 | 2024-02-14 23:13:05

踩

文章目录

Multi-attentional Deepfake Detection
背景
创新
贡献
方法
- 注意图正则化的区域独立性损失
- 注意力引导的数据增强
实验

Multi-attentional Deepfake Detection

来源：CVPR 2021
作者：Hanqing Zhao1 Wenbo Zhou1,† Dongdong Chen2 Tianyi Wei1 Weiming Zhang1,† Nenghai Yu1
单位：University of Science and Technology of China1 Microsoft Cloud AI2
邮箱：{zhq2015@mail, welbeckz@, bestwty@mail, zhangwm@, ynh@}.ustc.edu.cn
cddlyf@gmail.com
论文原地址：Multi-attentional Deepfake Detection

背景

DF大多二分类
人们提出了各种人脸伪造方法[19、41、21、31、32、44、28、38]。
为了降低风险，已经提出了许多深度伪造检测方法[27,34,22,33,26,45]。其中大多数将深度伪造检测建模为普通的二元分类问题(真/假)。基本上，他们通常首先使用骨干网络提取可疑图像的全局特征，然后将其输入二值分类器以区分真假图像。
细粒度分类领域多注意力网络

创新

1.首先，为了使网络关注不同的潜在伪像区域，我们设计了多注意头，利用深度语义特征来预测多个空间注意图。
2.其次，为了防止细微的差异在深层中消失，我们对从浅层获得的纹理特征进行增强，然后将低级纹理特征和高级语义特征聚合作为每个局部部分的表示。
3.最后，通过双线性注意力池层将每个局部部分的特征表示独立池化，并融合为整个图像的特征表示。
我们进一步提出了一种新的注意力引导数据增强机制。
同时，我们引入了一个新的区域独立性损失，以鼓励不同的注意力头关注不同的局部部分。

贡献

我们将深度伪造检测重新表述为细粒度分类任务，为该领域带来了新的视角。
我们提出了一种新的多关注网络架构，从多个人脸关注区域中捕获局部判别特征。为了训练该网络，我们还引入了区域独立损失，并设计了一个注意力引导的数据增强机制，以对抗学习的方式辅助网络训练。
大量的实验表明，我们的方法优于传统的二元分类基线，并达到了最先进的检测性能。

方法

在这里插入图片描述
注意区域是分开的，并对不同的判别特征作出反应。

我们将深度假检测定义为一个细粒度的分类问题，并提出了一种新的多注意深度假检测网络。
1)多个空间注意头，使网络关注不同的局部部分;
2)纹理特征增强块，放大浅层特征中的细微伪影;
3)在注意图的引导下，对低层次的纹理特征和高层次的语义特征进行聚合
在这里插入图片描述
三部分组成框架：
1.Attention Module 用于生成多个注意图的注意模块;
2.Texture Enhancement Block 用于提取和增强纹理信息的纹理增强块；
3.Bilinear Attention Pooling 一种双向双线性注意力池方法用于纹理和语义特征的聚合。浅层提取特征纹理矩阵，保留深层语义特征。

目前，真伪差异常存在局部细微处，单注意力网络不易捕捉。
在我们的框架中，局部注意力池取代了当前深度伪造检测方法常用的全局平均池。
多注意力框架——》解决细粒度分类问题
在这里插入图片描述
在纹理特征增强部分：我们首先应用局部平均池化对特定层SLt的特征映射进行下采样，得到池化的特征映射D。与空间图像的纹理表示类似，我们在特征级定义残差来表示纹理信息，如下所示:

这里T包含了fSLt (I)的大部分纹理信息。然后我们使用一个密集连接的3层卷积块对T进行增强，输出记为F∈RCF ×Hs×Ws，定义为“文本特征图”。

双线性注意力池化(Bilinear Attention Pooling)：在得到注意图A和纹理特征图F之后，我们使用双线性注意池(BAP)来获得特征图。我们在浅特征映射和深特征映射中双向使用BAP。为了提取浅层纹理特征，我们首先使用双线性插值将不匹配的注意图调整为与特征图相同的尺度。然后，分别将纹理特征图F与每个注意图Ak进行逐元相乘，得到部分纹理特征图Fk。

在这一步的最后，局部纹理特征映射Fk在全局池化后被输入到分类器中。然而，考虑到不同区域范围之间的差异，如果使用传统的全局平均池化，则池化的特征向量会受到注意图强度的影响，违背了关注纹理信息的目的。

为了解决这个问题，我们设计了一个标准化的平均池化:
在这里插入图片描述
然后将归一化的注意力特征vk∈R1×N叠加在一起，得到纹理特征矩阵P∈RM×CF，将其输入到分类器中。

注意图正则化的区域独立性损失

由于缺乏细粒度的级别标签，训练一个多注意力网络很容易陷入网络退化的情况。
在这里插入图片描述
如图4所示，不同的注意图倾向于集中在同一区域，这不利于网络捕获给定输入的丰富信息。此外，对于不同的输入图像，我们希望每个注意图都位于固定的语义区域，例如不同图像中的注意图A1聚焦于眼睛，A2聚焦于嘴巴。因此，每个注意图捕获信息的随机性将会降低。
为了实现这些目标，我们提出了一个区域独立损失，它有助于减少注意图之间的重叠，并保持不同输入的一致性。
我们应用BAP对3.2节中得到的池化特征映射D，得到一个“语义特征向量”:V∈RM×N，通过修改[15]中的中心损失，定义区域独立损失如下:
在这里插入图片描述
B为批大小，M为关注数，min为特征与对应的特征中心之间的余量，当yi为0和1时取不同的值。Mout是每个特征中心之间的距离。c∈RM×N为V的特征中心，定义如下，每次迭代更新:

其中α为特征中心的更新速率，在每个训练历元后衰减α。LRIL的第一部分是类内损失，它使V靠近特征中心c，第二部分是类间损失，它排斥分散的特征中心。我们通过计算每批V的梯度来优化c。考虑到伪人脸是通过多种方法生成的，因此伪人脸的纹理模式应该比真实人脸更加多样化，因此我们将伪人脸的部分特征从真实人脸的特征中心限制在邻域，但边缘较大。这样，我们在类内给出了更大的余量来搜索假人脸中的有用信息。
对于我们框架的目标函数，我们将这种区域独立损失与传统的交叉熵损失结合起来:
在这里插入图片描述
LCE是交叉熵损失，λ1和λ2是这两项的平衡权值。我们在实验中默认设置λ1 = λ2 = 1。

注意力引导的数据增强

在区域独立性损失的约束下，减少了不同关注区域的重叠。然而，尽管不同的注意区域可以很好地分开，注意图仍然可能对相同的区别特征做出反应。
在这里插入图片描述
在图5中，注意区域并不重叠，但它们都对输入人脸的地标有强烈的反应。为了迫使不同的注意图关注不同的信息，我们提出了注意引导数据增强(attention Guided Data Augmentation, AGDA)机制。
对于每个训练样本，随机选择一个注意图Ak来指导数据增强过程，并将其归一化为增强图A∗k∈RH×W。然后使用高斯模糊生成退化图像。最后，我们使用A * k作为原始图像和退化图像的权值:
在这里插入图片描述
注意力引导下的数据增强有助于从两个方面训练模型。首先，它可以在某些区域添加模糊，以确保模型从其他区域学习到更鲁棒的特征。AGDA可以抹去最明显的区别区域，这迫使不同的注意力地图将他们的反应集中在不同的目标上。此外，AGDA机制可以防止单一注意区域过度扩张，鼓励注意块探索各种注意区域划分形式。

实验

RetinaFace取帧380 × 380
我们在式4中设置超参数α = 0.05，每个历元后衰减0.9。式3中的类间裕度设为0.2。真实图像和假图像的类内距min分别为0.05和0.1。我们通过实验选择注意图M、SLa和SLt的数量。在AGDA中，我们设置调整因子0.3和高斯模糊σ = 7。我们的模型是用Adam优化器[20]训练的，学习率为0.001，权重衰减为1e6。我们在batch size为48的4个RTX 2080Ti gpu上训练我们的模型。

在本文中，我们采用了EfficientNet-b4[39]作为我们的多注意力框架的骨干网络。
EfficientNet-b4能够以仅一半的FLOPs实现与XceptionNet[3]相当的性能。effentnet共有7个主要层，分别由L1L7表示。
如上所述，我们观察到来自网络浅层的纹理特征倾向于保留细微的伪像，因此我们选择L2和L3作为SLt的候选。相反，我们希望注意图关注输入的不同区域，这在一定程度上需要高级语义信息的引导。因此，我们使用更深阶段L4和L5作为SLa的候选阶段。
通过默认设置M = 1，我们在FF++(HQ)上训练四种组合的模型。从表1的结果中，我们发现当将L2用于SLt，将L5用于SLa时，模型达到最佳性能。
在这里插入图片描述
分别在FF++[34]和DFDC[9]上评估了性能。进一步评估了Celeb-DF[25]上的跨数据集性能。采用ACC(准确度)和AUC(接收机工作特性曲线下面积)作为评价指标。

FaceForensics++ ，在训练过程中，我们将原始帧放大4倍，以达到真假标签的平衡。
我们采用EfficientNet-B4作为框架的主干，在LQ上训练模型时，参数由HQ上的预训练参数初始化，以加快收敛速度。对比结果如表2所示。

然而，由于F3 -Net是专门为高压缩深度假视频检测而设计的方法，在LQ版本上，与F3 -Net[33]相比，性能下降了1.5%。这主要是因为FF++(LQ)中的视频是高度压缩的，会造成纹理信息的严重损失，这对我们的纹理增强设计是一个灾难。
我们的框架对高压缩率敏感，这会模糊空间域的大部分有用信息。
DFDC 我们只与比赛团队的获胜方法相比。
在这里插入图片描述
Celeb-DF的跨数据集评价：
我们评估了框架的可转移性，该框架在FF++(HQ)上进行了多种伪造方法的培训，但在Celeb-DF上进行了测试[25]。
我们为每个视频采样30帧来计算帧级AUC分数。
我们的方法比大多数现有方法具有更好的可移植性。Two-branch[26]在可移植性方面达到了最先进的性能，但其数据集内AUC远远落后于我们。
在这里插入图片描述
在FF++上训练对Celeb-DF (AUC(%))的跨数据集评价。其他一些方法的结果直接引自[26]。

不同注意图数量对FF++(HQ) (Acc %)和CelebDF (AUC %)的消融结果。

然后验证了该设计在AGDA中的有效性。如前所述，我们模糊原始图像以降低输入的选定区域。因此，AGDA的策略可以看作是一种“软注意力投放”。在这一部分中，我们又选择了“硬注意删除”，即通过二元注意掩码BM直接擦除选定区域的像素:
在这里插入图片描述

在本实验中我们将注意力下降阈值设为θd = 0.5。本消融研究的比较结果如表6所示。结果表明，区域独立性损失(RIL)和注意力引导数据增强(软注意力下降)对改进框架的性能都有显著的贡献。

note：
conducive adj. 有助的，有益的
beneficial helpful useful advantageous profitable

To achieve these goals, we propose a … which helps to reduce the … among sths and keep the consistency for different inputs.

we substitute A with B 用b代替a
we substitute the regional independence loss with Additive Angular Margin softmax(AMS)
我们用AMS代替区域无关损失

注：本文仅用于学习交流，欢迎一起探讨。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/82520