赞
踩
Brian B. Moser, German Research Center for Artificial Intelligence (DFKI), Germany, arXiv, Cited:0, Code, Paper.
本文提出了一种新的扩散-小波(DiWa)方法,用于单幅图像超分辨率(SISR)。它充分利用了去噪扩散概率模型(DDPMs)和离散小波变换(DWT)的优势。通过使DDPMs在DWT域中运行,我们的DDPM模型有效地幻化出高频。 我们的DDPM模型有效地幻化了小波谱上超分辨率图像的高频信息,从而在图像空间中实现了高质量和详细的重建。从数量上看,我们在PSNR、SSIM和LPIPS方面优于最先进的基于扩散的SISR方法,即SR3和SRDiff,在脸部(8倍缩放)和一般(4倍缩放)的SR基准上都是如此。同时,使用DWT使我们能够使用比其他模型更少的参数。比较的模型: 与SR3相比,我们使用了92M的参数,而不是550M;与SRDiff相比,我们使用了9.3M,而不是12M。此外,我们的方法在经典的一般SR上的表现优于其他最先进的。 此外,我们的方法在经典的一般SR数据集上优于其他最先进的生成方法,同时节省推理时间。同时节省推理时间。最后,我们的工作强调了其在各种应用中的潜力。
本文的思想和Deblurring via Stochastic Refinement这个文章一模一样。
先看训练过程,低分辨率的图像使用插值方法放大得到
x
x
x,获得两个图像对,然后进行离散小波变化。先用一个预测器
g
θ
g_{\theta}
gθ对低分辨率图像进行超分,这步骤跟传统端到端的神经网络是一样的。然后对
z
t
z_{t}
zt进行前向扩散,这里的先验是残差,也就是说这个扩散模型是增强图像的,学习纹理细节等。
再看推理过程,给你一个低分辨率图像,先用一个网络获得初始的高分辨率图像,这个图像一定是模糊的。然后利用扩散模型生成增强的细节最后加给初始高分辨率图像。
我们使用DWT的动机是双重的: 首先,结合DWT和DDPMs可以提高图像质量,使模型能够捕捉和保留直接处理时可能丢失或扭曲的基本特征。DWT提供了另一种表示方法,明确地将高频细节隔离在单独的子带中。因此,它们的表示更加稀疏,因此,网络更容易学习。这一特性也被利用在基于扩散的音频合成中,并取得了令人印象深刻的结果。
其次,根据奈奎斯特规则,DWT将图像的空间大小减半,这加快了去噪函数(CNN)的推理时间,当模型在DDPM推理过程中被多次应用时,这一点尤其有利。在Phung等人最近的一项工作中,使用DiffusionGAN[50]对图像生成采用了类似的方法,展示了其加速潜力。然而,DiffusionGAN与传统的DDPMs不同的是 通过用GAN近似中间步骤来减少图像生成所需的时间步骤。
实验不全啊?为什么值比较PSNR?FID之类对于生成模型更重要的指标呢?效果这么好为什么不比较呢?效果这么好PSNR也不强啊?
对于脸部的SR,我们用我们的方法来评估SRDiff。对于一般的SR,我们将我们的方法与SR3进行比较。我们采用了双三次插值和抗锯齿程序来生成LR-HR图像对,这就抛弃了高频信息。
脸部SR:我们使用Flickr-Faces-HQ(FFHQ),来自Flickr的50K高质量脸部图像,作为训练。为了评估,我们利用了CelebA-HQ,它由30K人脸图像组成。我们按照Saharia等人的做法,采用两个8倍的缩放轨道。我们调整了所有图像的大小,以符合16×16→128×128和64×64→512×512的情况。
一般SR:我们使用来自DIV2K的800张2K分辨率的高质量图像进行训练,使用数据集Set5、Set14、BSD100和General100进行评估。此外,我们使用DIV2K验证集来比较我们的方法和SRDiff。我们遵循标准程序,从DIV2K中提取48×48→192×192的子图像进行4倍缩放训练。对于测试,我们保持图像的原始尺寸,这是SISR的一个标准程序。
脸部超分:我们将通道维度减少到64,而不是128,将ResNet块的数量减少到2,而不是3。总共有大约92M的参数,而不是550M。对于64×64→512×512的面部SR,我们采用了与SR3相同的架构设置(625M参数),以便为视觉例子提供公平的主观比较。此外,批次大小也减少到4,而不是256,256需要A100 GPU上才能运行啊!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。