赞
踩
Abstract
扩散模型可以用作解决各种逆问题的学习先验。然而,大多数现有的方法仅限于线性逆问题,限制了它们在更一般情况下的适用性。在本文中,我们建立在去噪扩散恢复模型(DDRM)的基础上,并提出了一种解决一些非线性逆问题的方法。我们利用DDRM中使用的伪逆算子,并将这一概念推广到其他测量算子,这允许我们将预训练的无条件扩散模型用于JPEG伪像校正等应用。我们通过实验证明了我们的方法在各种质量因素上的有效性,达到了与专门为JPEG恢复任务训练的最先进方法相当的性能水平。
1 Introduction
许多图像处理问题是逆问题的实例[22,20,21]。在现实世界的应用中,人们经常需要面对多种不同的退化模型[33,14,16],在每种情况下训练特定问题的模型可能是昂贵的[27]。因此,开发应用问题不可知模型的方法是有价值的,该方法将在推理时适应不同的退化模型,而无需重新训练。现有的方法,虽然在各种任务上取得了不错的性能,但通常局限于线性逆问题[5,34,18,16],忽略了某些重要的非线性逆问题,如JPEG伪影校正。由于JPEG是一种有损图像压缩格式[37],JPEG图像会出现质量损失和不希望的伪像。已经开发了几种方法来解决这个问题。
为了解决这个问题,我们介绍了一种使用去噪扩散恢复模型(DDRM) [16]执行JPEG伪像校正的方法。我们的核心思想是推广无噪声观测情况下DDRM更新规则中存在的伪逆矩阵。这种“伪逆”的广义概念包括作为特例的JPEG,其中JPEG编码的“伪逆”仅仅是JPEG解码。产生的算法类似于DDRM的原始更新,分别用JPEG编码和解码替换线性算子及其伪逆。
我们将我们的算法应用于具有各种质量因子(QF)的JPEG恢复,其中量化矩阵嵌入在JPEG文件中,并且在推断时自然是已知的。在常见的图像质量指标中,如PSNR、SSIM [38]和LPIPS [41],我们的方法优于最近专门为JPEG恢复训练的最新GAN基基线[10]。我们的方法在基线未被训练的低QF上实现了甚至更多的改进,证明了利用无条件扩散模型的方法的泛化优势。
扩展:
PSNR全称为“Peak Signal-to-Noise Ratio”,中文意思即为峰值信噪比,是衡量图像质量的指标之一。PSNR是基于MSE(均方误差)定义,对给定一个大小为m*n的原始图像I和对其添加噪声后的噪声图像K,其MSE可定义为:
则PSNR可定义为:
2 Background
Diffusion Models.
扩散模型是基于马尔科夫链的结构的生成模型,XT -> XT-1 ->…->X1->X0,其中任意Xt∈Rn(矩阵),它定义了如下联合分布:
推到XT…X0之后,仅保留X0作为生成模型的最终样本为了训练一个扩散模型,固定的分解的变分分布被引入:
在最大似然目标中产生数据概率密度下界,特定化参数采取以下形式:
其中p(t) θ可以通过去噪自动编码器[36]物镜来训练,在理想情况下,表示为f (t) θ (xt)的降噪器应该映射到MMSE估计器Eq(x0|xt)[x0],并且生成对“clean”x0的预测。
扩散模型在图像生成方面取得了前所未有的成功,并且它们也被部署用于各种任务
扩展
ELBO,全称为 Evidence Lower Bound,即证据下界。这里的证据指数据或可观测变量的概率密度。
Linear Inverse Problems一般的线性逆问题被提出为:
我们为了从测量值y∈Rn中恢复X∈Rn。 H∈Rm×Rn是已知的降解基质,和
是一个方差同分布的已知噪声。
各种各样的工作已经将扩散模型应用于逆问题解决,主要是对于无噪声的情况。虽然有可能基于x和y对训练条件扩散模型[27,28,39],但这种模型可能无法推广到其他逆问题。因此,通常希望从无条件扩散模型[5,34,18,16]中制定反问题求解器,其中关于反问题的知识不需要在训练期间已知;与特定问题的条件扩散模型相比,问题不可知技术节省了大量的计算资源。
Denoising Diffusion Restoration Models (DDRM).
特别是,DDRM [16]是一个在有噪声和无噪声情况下线性逆问题的通用求解器。对于任何线性逆问题,DDRM模型被定义为
其中x0是最终的扩散输出。DDRM背后的高级思想是利用H的奇异值分解,并将x和可能有噪声的y都变换到共享的频谱空间。在这个空间中,当来自y的信息可用时(即,当奇异值非零时),DDRM对维度执行去噪,并且在这样的信息不可用时(即,当奇异值为零时)对维度执行插补,明确地考虑测量噪声。
JPEG
JPEG [37]是一种常用的图像有损压缩方法。在高级别上,JPEG首先将未压缩图像从RGB色彩空间转换到YCbCr空间,选择性地应用色度子采样,将图像分割为8 × 8像素块,执行离散余弦变换(DCT),然后使用固定量化矩阵对结果值执行量化。然后,这些值可以通过霍夫曼树以无损方式压缩。整个过程可以被还原以定义JPEG解码方法,在色度子采样和量化步骤中发生信息损失。自1991年推出以来,JPEG已成为世界上使用最广泛的图像压缩格式,每天产生数十亿幅JPEG图像;因此,从JPEG压缩图像恢复高质量图像有着广泛的应用。为此目的开发了几种先前的方法
3 JPEG Artifact Correction with DDRM
对于观测值y中没有噪声的情况,对于线性逆问题,从p(t) θ (xt|xt+1,y)采样的一般DDRM过程简化为
对于观测值y中没有噪声的情况,对于线性逆问题,从p(t) θ (xt|xt+1,y)采样的一般DDRM过程简化为
其中H+是H的Moore-Penrose pseudo-inverse(摩尔-彭罗斯伪逆)。
是前一步t+1的去噪模型输出。
是预测噪音值。η和ηb是用户定义的超参数
是一个标准的高斯分布向量。在高层次上,我们通过x0t注入关于y的信息,在x0t中,我们用我们从y中知道的值替换谱域中的值。采样过程然后合计x0t(根据y校正)、xt+1(当前输入)和f (t+1) θ (xt+1)(降噪器输出),以产生下一次迭代的值。虽然上述方法似乎只适用于线性H,但其见解实际上可用于其他非线性逆问题,如JPEG伪像校正。我们注意到,对于线性H,其伪逆H具有两个重要性质:
取伪逆不会改变测量值。
2.H Hx“接近”x,在这种意义上,当只观察y = Hx(而不是x)时,H Hx为所有x提供了问题的最小二乘解
对于非线性算子,可能存在上述性质。例如,如果我们将H视为JPEG编码运算符,那么JPEG解码运算符也满足这些属性:
1.JPEG编码在量化和色度二次采样阶段引入了信息损失。剩余的信息在JPEG解码过程中被保留,因此再次对其进行编码将导致相同的结果。
2.JPEG解码方法通常保留视觉相似性,因此在编码后应用解码应该会生成与原始图像“接近”的图像。有了这种认识,我们可以简单地用DDRM和更新规则执行JPEG恢复
这可以在实际设置中使用,因为量化矩阵存储在JPEG文件中
4 Experimental Results
我们在ImageNet [7]数据集上评估我们的方法,因为它是多样化的,并且代表了真实世界的用例。具体来说,我们在名为ImageNet-1K [26]的ImageNet验证集的1000个图像子集上进行评估。我们利用[8]中的扩散模型,在256 × 256像素ImageNet训练图像上进行训练,扩散时间表为1000个时间步长。在我们所有的实验中,我们选择超参数η = 1、ηb = 0.4和20个均匀间隔的扩散步骤。此外,由于JPEG图像通常保留整体图像内容,我们发现我们可以用噪声干扰JPEG压缩的图像,并将其用作中间步骤t = 300的采样过程的初始化,类似于[24]。这允许采样提供更可靠的重建,避免了在初始时间步长T = 1000开始时引入的不必要的随机性。然而,当我们使用概率抽样方案时,结果中仍然会有随机性。为了稳定性能,我们为每个输入绘制8个独立的样本,并保存得到的平均图像。我们将第一个样本表示为“我们的(S)”,将平均图像表示为“我们的(A)”。
对于我们的JPEG伪像校正实验,我们使用JPEG [11]最常见的变体,它包括由质量因子(QF)定义的色度子采样和量化矩阵,QF范围从1到100,1是最压缩的,100是最忠实于原始图像的。
我们的方法产生高质量的重建(见图1,4)。此外,当在PSNR、SSIM [38]和LPIPS [41]等常见指标上进行数值评估时,我们的方法比简单的JPEG解码有了显著的改进,其性能相当于或优于最近最新的JPEG伪像校正技术QGAC [10]。QGAC专门针对QF ∈ [10,100]的JPEG恢复进行了训练,从表1中可以看出,它对较低QF的泛化能力很差。相比之下,我们的方法在没有JPEG特定训练的情况下对所有QF都适用。我们通过在图3中显示它的压缩率-失真曲线来证明它的成功。
此外,我们的方法不限于JPEG伪影校正,还可以应用于DDRM [16]未涵盖的类似非线性逆问题。例如,我们考虑图像去量化的问题,其中我们试图从低于标准24位每色量化的图像中恢复高质量的重建。如图2所示,我们的方法很好地概括了图像去量化,因为它的问题不可知的性质。此外,我们的方法不限于JPEG伪影校正,还可以应用于DDRM [16]未涵盖的类似非线性逆问题。例如,我们考虑图像去量化的问题,其中我们试图从低于标准24位每色量化的图像中恢复高质量的重建。如图2所示,我们的方法很好地概括了图像去量化,因为它的问题不可知的性质。
5 Conclusion
我们提出了一种新的方法来纠正JPEG压缩伪影使用扩散模型。我们的方法通过推广伪逆概念将DDRM [16]扩展到线性情况之外。我们在ImageNet-1K [7,26]上进行了评估,在大多数情况下,我们的方法与最先进的基线性能相当,并展示了专门训练的基线所不具备的对较低质量因子的泛化能力。我们的方法可以进一步推广到JPEG恢复之外,正如我们在图像去量化问题上成功演示的那样。它可以无缝地做到这一点,无需重新训练,也无需特定问题的超参数调整。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。