当前位置:   article > 正文

【论文笔记】Robust Image Forgery Detection Against Transmission Over Online Social Networks

robust image forgery detection against transmission over online social netwo

针对在线社交网络传输的鲁棒图像伪造检测
发布于2022 TIFS
源码链接:https://github.com/HighwayWu/ImageForensicsOSN

OSN:在线社交网络

摘要

OSN成为传播伪造图片、报道假新闻、传播谣言等的主要渠道。但OSN所采用的各种有损操作,如压缩和调整大小,给实现鲁棒图像伪造检测带来了巨大的挑战。为了对抗OSN共享的伪造,本文提出了一种新的鲁棒训练方案。

首先,设计了一个基线检测器,它在最近的证书伪造检测比赛中获得了第一名。然后对OSN引入的噪声进行了深入的分析,将其分解为两部分,即可预测噪声和不可见噪声,并分别建模。

  • 前者模拟了OSN公开的(已知)操作所带来的噪声。
  • 后者不仅完成了前一个操作,而且考虑了探测器本身的缺陷。

进一步将模型噪声纳入一个鲁棒的训练框架,显著提高了图像伪造检测器的鲁棒性。大量的实验结果验证了该方案相对于其他同类方案的优越性,尤其是在检测OSN传输的伪造信息方面。最后,为了促进图像伪造检测的未来发展,我们在现有的4个数据集的基础上,通过上传和下载4个最流行的OSN,构建了一个公共伪造数据集

引言

挑战

随着互联网的蓬勃发展,在线社交网络(OSNs)已经成为信息传播的主导平台,其中图像占据了很大一部分。自然地,许多伪造的图像通过各种OSN传输,严重地影响了人们对重要文件(证书)、商业产品、政治问题等的看法。

在无处不在的OSN平台上,针对有损操作的鲁棒伪造检测的设计却鲜有研究。这样一个主题是非常重要的,因为这些有损操作会严重降低检测性能。如图1所示。目前最先进的算法能够准确地从原始伪造中检测出伪造区域,但在处理通过Facebook传输的伪造时,检测性能会严重下降。
在这里插入图片描述
为了减轻OSN的负面影响,最关键的问题是对OSN的有损通道引入的噪声进行分析和建模。然而,这是一个相当困难的问题,主要是因为目前的平台没有公开对传输图像的操作过程。虽然现有的一些作品揭示了OSN所采用的部分流程,但仍有许多未知操作,如Facebook的增强过滤、质量级别的分配机制、调整因子,甚至调整时使用的插值等,都是不清楚的。更重要的是,OSN经常调整它们的图像处理管道,这使得建模更加具有挑战性。

方法的提出

为了应对上述挑战,在本文中,我们旨在设计一种鲁棒的图像伪造检测方法,以克服OSN中的有损操作。我们首先设计了一个基线检测器,它在最近的证书伪造检测比赛中获得了第一名。然后针对OSN退化问题,提出了一种噪声建模方案,并将模拟噪声集成到一个鲁棒训练框架中。更具体地说,我们将OSN噪声分解为两个部分:1)可预测噪声和2)不可见噪声。前者用于模拟已知操作(如JPEG压缩和缩放)带来的可预测损失,其建模依赖于具有残差学习的深度神经网络(DNN)和嵌入的可微JPEG层。而后者是前者的补充和延伸,主要是针对OSNs所进行的不可知行为和/或各种OSNs在训练和测试中的差异。显然,从信号特征的角度建立一个合适的模型是不现实的。为了解决这个困难,我们将我们的观察从噪声的角度转移到检测器本身,只关注可能导致检测性能恶化的噪声。这种策略自然孕育了一种新的算法,利用对抗噪声的思想对不可见噪声进行建模,它本质上是一种难以察觉的扰动,会严重降低模型性能。

正如预期的那样,我们的鲁棒图像伪造检测方法显示出了良好的鲁棒性,特别是在OSN传输的情况下,其性能优于目前的几种最先进的算法。如图1所示为我们方案的检测结果实例,验证了我们的模型对OSN上传输的鲁棒性。最后,为了进一步的研究,我们基于现有的4个数据集,分别通过Facebook、Whatsapp、微博和微信平台手工上传和下载,构建了一个包含7000多个条目的公共伪造数据集。

主要贡献

  • 设计了一个基线图像伪造检测器,它在最近的证书伪造检测比赛中获得了第一名。这个基线检测器也是这项工作的基石。
  • 提出了一种针对OSN传输的鲁棒图像伪造检测的新训练方案。该训练方案不仅模拟了包含OSN的可预测噪声,而且通过新提出的算法融合了不可见噪声,进一步提高了检测器的鲁棒性。
  • 与几种最先进的方法相比,我们提出的模型获得了更好的检测性能,特别是在对抗OSN上传输的情况下。
  • 基于现有的4个数据集,分别通过Facebook、Whatsapp、微博、微信平台上传和下载,构建了一个公共伪造数据集。

OSN

几乎所有的OSN都以有损的方式操作上传的图像。这些有损操作所带来的噪声会严重影响取证方法的有效性。以Facebook为例,这些操作主要包括四个阶段:格式转换、调整大小、增强过滤和JPEG压缩。具体来说,首先将上传的图像转换为像素域,在像素域中使用截断来确保像素值在[0,255]之内。在此之后,如果图像的分辨率高于2048像素,则应用大小调整。然后,对图像中选定的部分块进行高度自适应的复杂增强滤波。由于这些增强滤波操作具有自适应性,所以要准确地知道它们是非常具有挑战性的。最后,对图像进行一轮JPEG压缩,并根据图像内容自适应确定质量因子(QF)。

通过分析[18]提供的数据集,Facebook使用的QF值在71 - 95之间,更详细的分布如图2(a)所示。此外,我们还在图2 (b)中展示了通过Facebook传输图像时像素值的变化情况。虽然不同OSN平台上的图像处理方式不同,但主流OSN的操作仍有许多相似之处[18]。
在这里插入图片描述

基线图像伪造检测器

基线图像伪造检测器的原理图如图3所示。该检测网络的目标是在像素级精度上检测伪造区域。其中探测器fθ: RH×W×3→RH×W×1以分辨率为H×W的彩色图像作为输入,最终输出检测结果的二值图。
在这里插入图片描述
U-Net作为Backbone。U-Net由四个连续编码器和四个对称解码器组成,每个编码器包含重复卷积层、ReLU激活和最大池化操作。在编码阶段,不断降低空间维数,提取更重要的特征信息。在解码阶段,通过重新调用相应编码器中学习到的特征作为额外的上下文信息,解码器可以在各种任务中更好地优化结果。需要注意的是,所采用的U-Net骨干的输入输出层还需要进一步优化,才能获得满意的检测性能。

标准卷积层通常学习用于表示输入图像的内容的特征,而不是潜在的伪造痕迹。为了提高提取伪造相关特征的能力,我们通过合并"空间信道挤压和激励"(SCSE)机制而不是简单地使用传统的普通U-Net来进一步扩充架构。如图3所示,由此产生的U-Net变体称为SE-U-Net,它可以选择性地强调信息特征,同时抑制其余特征。

具体地,所使用的SCSE层由两个分支组成,每个分支分别在空间域和信道域中执行特征重新校准。对于给定的潜在特征映射F ∈ RH×W×C,空间重新校准模块首先通过下式生成重新加权矩阵S ∈ RH×W:
在这里插入图片描述
其中W1指卷积层的权重。然后,以空间方式将重新加权矩阵S乘以特征映射F,以实现自适应激励,并且所得到的重新校准的空间特征由FS表示。
在这里插入图片描述
另一方面,通过引入全局平均池化层,信道重校准首先产生中间向量v ∈ R1×1×C。通过使用基于信道依赖性的自选通操作来进一步细化矢量v,即,
在这里插入图片描述
其中W2和W3表示两个完全连接的层的权重。最后,通过F和v * 之间的通道式乘法获得通道重校准特征FC。具体而言
在这里插入图片描述
还需要强调的是,虽然基线检测器具有良好的伪造检测和定位性能,但它对失真(如OSN传输引起的失真)的鲁棒性不够强。

在OSN上传输的鲁棒图像伪造检测

设计一个针对不同OSN上传输的鲁棒图像伪造检测方案。成功的关键技术是对OSN产生的退化进行适当的建模,并将这些知识集成到一个鲁棒的训练框架中

将OSN噪声分为两种类型:1)可预测噪声和2)不可见噪声。前一种类型对应于降解源明确识别的情况。而后者是由多种因素引起的各种噪声不确定性的组合,包括未知的建模/参数、训练OSN与测试OSN之间的差异,甚至一些完全不可见的退化源。通过在训练阶段加入模拟的OSN噪声,检测器可以学习更多在OSN传输中幸存下来的广义特征,使得整体伪造检测性能显著提高。
在这里插入图片描述
对于每一次训练迭代,我们首先采样两个原始的3通道(RGB)彩色图像{p1,p2}∈ RH×W×3,和一个二进制掩码y ∈{0,1}H×W×1,其中1被分配给伪造区域,0被分配给其他区域。应当注意,伪造区域可以是空间上不连接的。则伪造图像x可以合成为
在这里插入图片描述
在具有伪造图像和对应的GT对之后,我们可以创建用于训练的数据集D ={(xi,yi)} Ni = 1,其中i是训练样本的索引。因此,在复合噪声δ下图像伪造检测器f θ的鲁棒训练可以用公式表示为:
在这里插入图片描述
考虑到两个噪声分量τ和ξ是相关的。那么我们的鲁棒训练方案(7)可以进一步写成:
在这里插入图片描述
从实现的角度来看,这些期望值可以在有足够数量的噪声样本的情况下高效准确地计算出来。

为了进行(8)中给出的鲁棒训练,一个关键的任务是对边缘分布P(τ)和条件分布P(ξ|τ)进行建模,或者等效(从实现的角度来看)具有生成噪声样本的机制。在这个原则的指导下,我们在图4中展示了整体的鲁棒训练框架,它由以下四个阶段组成。粗略地说,阶段1和阶段2用于模拟可预测的噪声,为建模分布P(τ)提供了一个可微网络。阶段3通过对抗噪声产生策略模拟不可见噪声,处理条件分布P(ξ|τ)。最后,阶段4通过使用(8)处理图像伪造检测器f的实际鲁棒训练。
在这里插入图片描述

建模分布P(τ)

对分布P(τ)建模,其中退化是由OSN平台的有损操作引起的。τ的主要退化源是应用的JPEG压缩,而后处理(如增强滤波)和/或可能的下采样也部分地促进了τ的退化。对于图像xi和固定的OSN平台,产生的噪声可以通过
在这里插入图片描述
其中,函数OSN(·)反映了给定OSN平台的所有操作。注意,τi依赖于xi,即噪声依赖于信号。这样看来,我们可以产生大量的噪声样本,这些噪声样本可以用来对P(τ)的分布进行建模。然而,在实践中,这种简单的建模方案是有问题的。处理后的图像OSN(xi)需要先上传到指定的OSN平台,然后再下载。这样的程序,一方面是耗时的;另一方面,很多OSN不允许进行过多的上传/下载操作。一些OSN平台,如微博,如果短时间内发现上传/下载操作过多,甚至会禁止该账号。这严重限制了获得的噪声样本的数量,使这种天真的方案在实践中非常无效。

为了与OSN平台中的图像处理流程保持一致,我们训练了一个DNN模型,该模型显式嵌入了一个可微分层来描述JPEG压缩。对于输入图像xi,我们的目标是学习映射gφ: Rd→Rd,其中gφ是一个具有可训练参数φ的网络,预测OSN的输出。我们对gφ采用了U-Net架构,因为它本质上是一个图像到图像的映射。训练过程如图4的第一阶段所示,然后在第二阶段中使用经过良好训练的g进行建模P(τ)。在训练阶段,我们离线收集输入图像xi∈Rd和OSN传输版本OSN(xi)∈Rd对。训练模型g的目标函数可以表示为:
在这里插入图片描述
其中,Lr(.,.)测量的重构损失定义为
在这里插入图片描述
由于我们更感兴趣的是学习OSN传输产生的噪声,而不是学习处理后的图像本身,所以在设计g时我们采用了残差学习结构。考虑到这一点,我们将目标函数更改为:
在这里插入图片描述
残差学习有利于模型的优化,大大提高了建模性能。

此外,我们显式地将一个特殊层集成到模型中,以便更好地生成结构的、类似jpeg的工件,这些工件反映了各种OSN平台中的真实情况。众所周知,JPEG压缩主要包括以下四个步骤:1)颜色空间变换;离散余弦变换(DCT);3)量化;4)熵编码。为了实现(12)中目标函数的端到端优化,我们需要确保每一步都是可微的。在这四个步骤中,量化是唯一不可微的步骤,主要是因为所采用的舍入函数·处处具有0导数。为了有一个可微的量化步骤,我们用一个可微的版本逼近舍入函数:
在这里插入图片描述
其中最大偏差0.125出现在舍入0.5处。在具有可微分JPEG层时,用于训练gφ的目标函数变为
在这里插入图片描述
其中Jq表示具有给定QF q的可微分JPEG层。在我们的训练中,q是从图2(a)中的观测范围均匀采样的。然后,可以直接推导出噪声τ i:
在这里插入图片描述
其中,φ∗是通过求解优化问题(14)得到的,q是与JPEG压缩相关的QF。对于给定的输入xi,注意到q可能在不同的OSN平台上发生变化,我们可以将τi的可能结果集定义为:
在这里插入图片描述
其中q1, q2,···为osn采用的底层QF值。在我们的实现中,QF值的范围是71到95,正如Facebook所采用的。蒙特卡罗(MC)采样方案可以很容易地生成大量的噪声样本,用于建模分布P(τ)。

ξ值条件分布的建模

在本小节中,我们处理条件分布P(ξ|τ)建模的问题,以便解决(8)中的优化问题。我们纳入噪声项ξ的原因是可预测的噪声τ肯定不能完全捕捉到实际遇到的噪声行为。例如,不同的osn可能采用不同的处理过程,例如动态调整QF,自适应调整大小,甚至引入完全不可见/未知的操作。

在各种潜在的不可见噪声ξ中,我们实际上只需要关注那些降低检测性能的噪声,而忽略那些对检测影响不大的噪声。这促使我们在建模P(ξ |τ)时采用一种对抗噪声。从本质上说,对抗噪声通常是人类感觉不到的,但却能够导致严重的模型输出错误。同时,我们所关注的看不见的噪声ξ值往往很小,能够骗过检测器(高度扭曲的图像会偏离造假的目的)。

从对抗的角度来看,只要将噪声ξ值添加到原正态样本上产生的对抗样本跨越了决策边界,则有多种定义噪声ξ值的方法。图5给出了一个说明性的例子,其中虚线表示对抗噪声的几个可能的方向。注意到噪声ξ值通常是小幅度的,我们建议将ξ值的方向设置在代价函数相对于输入的梯度上,以使噪声能量最小化(如图5中红色虚线所示)。因此,对于给定的输入,可预测的噪声τi,以及目标输出yi,不可见的噪声ξ i表示为
在这里插入图片描述
其中,
在这里插入图片描述
计算代价函数Lb相对于输入xi的梯度,S返回梯度的符号。通过在训练过程中加入这种对抗噪声,期望使学习模型不仅对特定的对抗噪声具有鲁棒性,而且对更一般的未知噪声具有鲁棒性。
在这里插入图片描述
在这里插入图片描述
虽然(19)可以用来估计平均梯度,但它只反映了特定已知数据(训练数据)的梯度,因此失去了一般性。为了缓解上述问题,进一步提高鲁棒性,我们提出在小范围内对ξ 进行扰动。在这里,更理想的方法是使用参数模型来描述平均梯度。为了找到合适的平均梯度模型,我们首先采用数据驱动的方法,对从训练过程中随机抽取的1000个样本进行统计分析。在图6中,我们使用t-SNE将2D空间中的这1000个随机样本可视化。
在这里插入图片描述
可以看出,采样点集中在某一中心附近,当它们远离中心时逐渐消失。这种现象建议我们使用高斯分布来建模平均梯度,即:
‘】【【【;;
在这里插入图片描述
其中σ是控制方差的经验设定参数,
在这里插入图片描述
在这里插入图片描述

鲁棒性训练的细节

在这里插入图片描述
通过这个可计算损失函数,我们可以执行鲁棒训练,如算法1所总结的那样。
在这里插入图片描述
在算法1中,第2行∼7被用来训练一个网络g以估计可预测的噪波,这是第15行所使用的。第16行模拟在τ上不可见噪声ξ条件。然后,在第18行,计算最终的目标函数,并在第20 ~ 22行更新参数。最后,我们在第26行产生了经过训练的探测器fθ∗。

实验结果

实验设置

训练/验证集

WEI

测试集

DSO、Columbia、NIST、CASIA

比较方法

MT-Net、NoiPri、ForSim和DFCN

评价标准

AUC、F1得分、IoU

定量比较

表1给出了像素域的AUC、F1和IoU(越高越好)的定量比较。
在这里插入图片描述
可以看出,当伪造不通过OSN传输时,ForSim、DFCN和我们的检测方法效果相当,而MT-Net和NoiPri的检测效果稍差。值得注意的是,由于NoiPri的分辨率小,无法用于检测CASIA中的造假,而我们的方法没有这种限制,甚至比其他竞争对手在CASIA上的性能更好。在假图通过OSN(Facebook、Whatsapp、微博、微信)的情况下,现有方法的检测性能都明显下降。例如,通过Facebook、Whatsapp、微博和微信传输后,与没有OSN传输的情况相比,与MT-Net相关的IoU得分分别下降了10.1%、10.6%、11.1%和9.4%。如此严重的退化可能是由于OSN进行的有损操作破坏了很大一部分伪造伪制品。 相反,由于对τ和ζ进行了适当的噪声建模,我们所提出的方法对OSN传输表现出了相当理想的鲁棒性,并且仍然导致了准确的伪造检测。 以Facebook为例,IOU减少幅度仅为0.9%。 还可以注意到,WhatsApp、微博和微信的伪造检测性能下降幅度略大,IOU下降幅度分别为2.6%、2.9%和4.5%。 这主要是因为,与Facebook相比,WhatsApp、微博和微信对上传的图像采用更严格的压缩,造成更多证据丢失。 此外,对于训练我们的方法,我们只使用Facebook的数据,根本没有任何WhatsApp、微博或微信的数据。 从表1可以看出,利用Facebook数据训练的方案可以很好地推广到WhatsApp、微博和微信传输的图像

定性分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图7给出了Facebook测试数据集(Columbia和NIST)中的几个代表性例子。可以看出,在正常情况下(无OSN传输),现有的检测方法性能相对较好,如第一种情况下的MT-Net和ForSim,第二种情况下的NoiPri和DFCN。 然而,在OSN传输版本的情况下,这些方法都不能取得令人满意的检测性能。 以第二种情况下的NoiPrp为例。 对于Facebook、WhatsApp、微博和微信传输的图像,识别出的伪造区域也遍布几个物体,使得伪造检测结果用处大打折扣。 相比之下,我们提出的方法可以学习更鲁棒的伪造特征,从而在这些具有挑战性的情况下产生更精确的检测结果,这主要归功于复合噪声建模的鲁棒训练方案。 注意,微博会在上传图像的右下角自动生成一个可见的水印。 虽然水印本质上是一种伪造(我们的方法可以正确地检测到它),但我们仍然使用原始的地面真值掩码来评估所有方法的检测性能。

假阳性率分析

在实际应用中,从假阳性率(FPR)的角度来评价图像伪造检测方法也是非常重要的。 这是因为伪造图像在大多数应用中只占很小的一部分,因此,良好的伪造检测方法要求具有低的FPR。 为此,我们在Vision DataSet上额外测量了我们的方案和竞争方案的像素级FPR,该数据集包含使用35种不同便携式设备捕获的真实图像(及其Facebook传输的版本)。结果汇编在表2中,其中参数th被用来阈值概率输出。 注意,ForSim不需要有阈值化过程。 可以观察到,我们的方法得到了很小的FPR(小于3%),并且FPR性能可以随着Th的增加而提高。 事实上,除了ForSim之外,其余四种方法的FPR性能都比较好。 此外,Facebook传输只是稍微影响所有方法的FPR性能。 还应强调的是,参数th折衷了FPR和假阴性率(FNR); 也就是说,通过增加TH来降低FPR会产生更高的FNR。
在这里插入图片描述

消融研究

残差学习、可微JPEG层
OSN网络训练的消融研究。−越低越好。+越高越好
在这里插入图片描述
首先介绍了不同结构的OSN网络gφ对可预测噪声τ模拟的影响。可以看出,残差学习非常有效地使网络专注于预测OSN噪声,而不是图像内容,因此获得了11.17 dB的较大PSNR增益。然而,在这种情况下,可预测的τ在视觉上与实际的OSN噪声并不相似。这可能是因为标准的卷积神经网络很难生成独特的类似jpeg的工件。将可微JPEG层隐式集成到网络gφ中,不仅可以进一步提高可预测噪声(PSNR增益1.35 dB),在视觉上也更接近GT。
在这里插入图片描述
对可预测噪声τ和不可见噪声ξ的消融建模进行了研究。括号中的值表示与相应基线检测器的差值。
在这里插入图片描述
可以看出,在第2行检测器的训练中引入可预测噪声τ可以略微提高检测性能(如F1中1.2%的增益),在Facebook传输的情况下更明显(如F1中4.6%的增益)。第4行结果表明,ξ值可以有效地增强检测器的鲁棒性,带来更显著的提高(如8.6%的增益F1)。最后,#5行表明,当复合噪声τ和ξ同时作用时,检测器对目标环境的鲁棒性更强,这对于OSN传输中的伪造检测任务(如τ和ξ)至关重要。(F1增加15.7%)。除了上述定义不可见噪声ξ的方法外,我们还说明了另一种设计方法,即使用FGSM的[40]。比较(3行)表明,FGSM定义的噪声并不能有效提高检测器的整体鲁棒性,说明我们提出的对于不可见噪声ξ的噪声建模方案是非常重要的。如第6行和第7行所示,我们的鲁棒训练方法也可以很好地增强DPN的鲁棒性。

鲁棒性评价

我们将这些后处理操作应用于原测试集Columbia,并将定量结果报告在图9中。为了便于演示,我们使用一个统一的参数p来控制不同操作的大小,例如,对于高斯噪声,p/10代表标准差,而100−2∗p代表JPEG压缩中使用的QF。对于大小调整和高斯模糊,性能下降略有增加,约3%。上述评估结果表明,我们提出的模型对这些常用的后处理操作也具有良好的鲁棒性。
在这里插入图片描述
此外,我们在更具有挑战性的场景下,即在osn上的重传或交叉传输(如图像),测量我们所提出的模型的鲁棒性,图像被下载和重新上传到相同的还是不同的OSN,这在现实中可能经常发生。表V中的检测结果表明,对第二轮OSN传输具有相当理想的鲁棒性。需要指出的一个有趣现象是:篡改图片经过Facebook或微博的初步处理后,不会被Facebook进一步压缩(见上一列)。原因可能是Facebook不会对已经满足尺寸条件或质量约束的图片采取额外的行动,这给取证任务带来了方便。但是,交叉传播的方式确实会加重图像的质量损失(如先传到Facebook后传到微博),从而略微降低最终的检测性能。
在这里插入图片描述

总结

在本文中,我们提出了一种新的训练方案,以提高图像伪造检测的鲁棒性对各种基于osn的传输。该方案的设计借助于可预测噪声τ和有意引入的不可见噪声ξ的建模。实验结果表明,与几种最新的方法相比,我们的方案具有优越性。此外,我们建立了一个osn传输的伪造数据集,以供取证领域的未来研究。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/890290
推荐阅读
相关标签
  

闽ICP备14008679号