当前位置:   article > 正文

CVPR2021 | 实时4K“image-to-image translation”,港理工&达摩院张磊团队提出拉普拉斯金字塔变换网络_aerial visible-to-infrared image translation: data

aerial visible-to-infrared image translation: dataset, evaluation, and basel

编辑:Happy
首发:AIWalker

标题&作者团队

paper: https://www4.comp.polyu.edu.hk/~cslzhang/paper/LPTN-cvpr21-paper.pdf

code: https://github.com/csjliang/LPTN

本文是港理工&达摩院张磊团队在image-to-image translation方面继3DLUT之后的又一力作。本文创造性的将拉普拉斯金字塔与深度学习进行了结合,对于拉普拉斯金字塔的分离、重建特性与image-to-image translation之间的共通之处进行了分析,进而提出了本文的LPTN。所提LPTN可以在一个常规GPU上对4K分辨率图像进行实时变换,同时取得与其他方案相当甚至更优的性能。

Abstract

现有image-to-image translation(I2IT)往往要求使用低分辨率图像,这是因为高分辨率图像会导致过大的内存占用与更长的推理耗时。

本文旨在通过拉普拉斯金字塔分解、重建加速高分辨率图像I2IT。具体来说,我们揭示了:属性变换(比如亮度、色彩)与低频成分更相关,而内容细节可以自适应在高频成分上调节。因此,我们提出了Laplacian Pyramid Translation Network(LPTN)同时进行这两个任务:我们设计了一个轻量网络在低分辨率上对低频成分进行变换,然后再词用渐进式掩码策略调整高频部分。所提模型可以避免高分辨率特征图导致的重度计算量问题,同时可以忠实的保持图像细节。

不同任务上的实验结果表明:所提方法可以在一个常规GPU上实时处理4K图像并取得同现有方案相当的性能。

Introduction

laplacian

上图相同场景不同时间拍摄的图像及其对应的低频、高频信息对比图,可以看到:这两个图像的高频区域MSE差异要远远小于低频区域的MSE差异。类似的现象可以从直方图与视觉效果方面得到证明。也就说:高频子图像具有更细分辨率,而不同级别的子图像显示出了像素级相关性,并表现出相似的纹理。这种属性引出一种用于调整内容细节的高效掩码策略。

基于上述发现,我们提出了一种快速且高效的方法LPTN。具体来说,我们次啊用级联残差模块构建了轻量网络用于处理低频成分,对其进行域相关属性变换;为了对低频分量的处理进行拟合,并忠实地进行图像重建,我们自适应地提炼高频成分以避免高分辨率特征导致地重度计算达到提升效率地目的。因此,我们构建了另外地小网络计算掩码并对其逐步上采样。该方案可以通过对抗训练策略采用无监督方式进行训练。

本文所提方法有这样几个优势:

  • 首个可以实时进行4K分辨率图像变换地方案;
  • 在轻量化+快速推理地前提下,所提方法仍可以取得与现有方案相当甚至更好地性能;
  • 定量与定性实验结果表明:所提方法取得了SOTA性能。

Method

lptn

上图给出了本文所提LPTN网络架构示意图,给定输入图像 I 0 ∈ R h × w × 3 I_0 \in R^{h\times w \times 3} I0Rh×w×3,我们首先通过Laplacian Pyramid(LP)将其分解为带通成分集合(表示为 H = [ h 0 , h 1 , ⋯   , h L − 1 ] H=[h_0,h_1,\cdots,h_{L-1}] H=[h0,h1,,hL1])以及低频残差图像 I L I_L IL,其中L表示LP地分解级数。LP的成分具有越来越小的分辨率:从 h × w h\times w h×w h 2 L − 1 × w 2 L − 1 \frac{h}{2^{L-1}} \times \frac{w}{2^{L-1}} 2L1h×2L1w I L I_L IL的分辨率为 h 2 L × w 2 L \frac{h}{2^L} \times \frac{w}{2^L} 2Lh×2Lw。LP是一种可逆操作,即原始图像可以通过一系列镜像操作重建。H具有高度不相关性:除了纹理细节外,其他区域的灰度值接近0;而 I L I_L IL则是模糊结果,即每个像素是局部近邻高斯模糊结果。因此, I L I_L IL反应了图形的全局属性。

受启发于上述LP属性,我们主要在 I L I_L IL上进行变换以调整亮度、色彩,而对H进行自适应提炼以避免重建过程中的伪影问题。此外,我们基于低分辨率结果对高分辨率成分进行渐进式提炼。

LPTN框架包含三个主要部分:

  • 首先,我们通过深度卷积将低分辨率 I L I_L IL变换为 I L ^ \hat{I_L} IL^
  • 然后,我们在 [ h L − 1 , u p ( I L ) , u p ( I L ^ ) ] [h_{L-1}, up(I_L), up(\hat{I_L})] [hL1,up(IL),up(IL^)]基础上学习一个掩码,该掩码将于 h L − 1 h_{L-1} hL1相乘以提炼L-1级的高频成分;
  • 其次,为进一步提炼其他更高频成分,我们提出一种高效的渐进式上采样策略。在 l = L − 2 l=L-2 l=L2 l = 0 l=0 l=0级,我们首先上采样上一级的掩码然后通过轻量卷积对该掩码轻微调整。

Translation on Low-Frequency Component

LP的本质属性包含纹理于视觉属性的分离、可逆重建能力,这两个属性非常切合I2IT任务。对于广义纹理调整I2IT任务来说,域相关属性通过深度网络在隐空间及逆行表征。相反,对于逼真I2IT来说,我们发现:域相关熟悉感主要为亮度、色彩,它们可以通过固定核以一种高效方式提取。以前面图示为例,白天-黑夜变换的域相关属性主要体现在低频成分,而高频成分具有强相关性。因此,我们可以在对低分辨率的低频成分进行域相关属性变换,这将极大的降低广义I2I方法的计算复杂度。

以Figure2为例,给定 I L I_L IL,我们首先采用 1 × 1 1\times 1 1×1卷积扩展通道维度;然后采用5个残差模块提取特征;其次我们将特征的通道数降到c以得到变换结果 I ^ L \hat{I}_L I^L。这个输出最终将添加到原始输入并后接Tanh激活函数。

传统的I2IT算法同样采用级联残差模块在低维空间进行变换。本文所提方法有这样几个优势:

  • 在推理耗时与内存占用方面,LP的高低频分解更为高效且无需学习;而传统的方法采用自编码方式这导致了大量的计算量,限制了其在高分辨率图像的应用。
  • 在解耦与重建效率方面,LP的频带分离更为简单有效;而基于学习的自编码方式则需要在模型大小与重建性能方面进行均衡。

Refinement of High-Frequency Components

为确保调整域相关属性的同时具有忠实重建结果,高频成分 H = [ h 0 , h 1 , ⋯   , h L − 1 ] H=[h_0, h_1, \cdots, h_{L-1}] H=[h0,h1,,hL1]同样应当参照 I L I_L IL I ^ L \hat{I}_L I^L的变换进行自适应调整。

在这里,我们为 h L − 1 h_{L-1} hL1学习一个掩码并渐进式对其上采样并提炼以适配其他高频成分。按照前面的分析, h L − 1 ∈ R h 2 L − 1 × w 2 L − 1 × c , I L , I ^ L ∈ R h 2 L × w 2 L × c h_{L-1} \in R^{\frac{h}{2^{L-1}} \times \frac{w}{2^{L-1}} \times c}, I_L, \hat{I}_L \in R^{\frac{h}{2^L} \times \frac{w}{2^L} \times c} hL1R2L1h×2L1w×c,IL,I^LR2Lh×2Lw×c,我们首先对 I L , I ^ L I_L, \hat{I}_L IL,I^L采用双线性插值上采样以匹配 h L − 1 h_{L-1} hL1的分辨率;然后对三者进行拼接并送入tiny网络。该网络的输出通道数设置为1.

网络的输出掩码 M L − 1 ∈ R h 2 L − 1 × w 2 L − 1 × 1 M_{L-1} \in R^{\frac{h}{2^{L-1}} \times \frac{w}{2^{L-1}} \times 1} ML1R2L1h×2L1w×1可以视作 h L − 1 h_{L-1} hL1的像素掩码。如Figure1所示,两个域图像的高频成分差异非常小。因此,该掩码可以解释为全局调整且更易于优化。因此,我们通过如下方式提炼 h L − 1 h_{L-1} hL1
h ^ L − 1 = h L − 1 ⊗ M L − 1 \hat{h}_{L-1} = h_{L-1} \otimes M_{L-1} h^L1=hL1ML1
我们通过渐进式方式上采样 M L − 1 M_{L-1} ML1得到掩码集合 [ M L − 2 , ⋯   , M 1 , M 0 ] [M_{L-2}, \cdots, M_1, M_0] [ML2,,M1,M0]。因此,我们可以采用类似方式对不同的高频成分进行提炼并得到 [ h ^ 0 , h ^ 1 , ⋯   , h ^ L − 1 ] [\hat{h}_0,\hat{h}_1, \cdots, \hat{h}_{L-1}] [h^0,h^1,,h^L1]。最后采用变换后的 I ^ L \hat{I}_L I^L与提炼结果 [ h ^ 0 , h ^ 1 , ⋯   , h ^ L − 1 ] [\hat{h}_0,\hat{h}_1, \cdots, \hat{h}_{L-1}] [h^0,h^1,,h^L1]重建得到 I ^ 0 \hat{I}_0 I^0

Learning criteria

所提LPTN采用无监督方式进行训练,其优化的损失函数包含重建损失 L r e c o n s \mathcal{L}_{recons} Lrecons以及对抗损失 L a d v \mathcal{L}_{adv} Ladv。重建损失采用了常规L2损失,对抗损失则基于LS-GAN与多尺度判别器进行设置。总体损失定义如下:
L = L r e c o n s + λ L a d v \mathcal{L} = \mathcal{L}_{recons} + \lambda \mathcal{L}_{adv} L=Lrecons+λLadv

Experiments

为扩展I2IT任务到高分辨率场景,我们从Flickr网络收集了两个非成对数据集,器分辨率从1080p变化到4K范围。一个为白天-黑夜变换,一个为夏天-冬天变换。

此外,为定量评估所提方法,我们在MIT-Adobe-FiveK数据集上进行实验对比。参考现有方案,我们采用expertC作为目标。

训练超参方面,我们采用Adam优化器,学习率为0.0001,损失的加权比例为 L r e c o n s : L a d v = 10 : 1 \mathcal{L}_{recons}:\mathcal{L}_{adv}=10:1 Lrecons:Ladv=10:1

上图对比了不同模块的有效性分析,可以看到:

  • 高频成分的监禁提炼对于纹理细节的保持非常有效,移除后影响极大,不仅视觉效果变差,指标也下降甚多;
  • 低频成分进行变换时IN层很有必要,移除后会造成过度锐化的结果。
  • 总而言之,所提LPTN可以取得自然而逼真的变换结果。

上表对比了LP分解级数的影响对比,可以看到:

  • L=3时的LP分解取得了最佳性能;
  • 在推理耗时与性能方面的均衡可以通过LP的分解级数进行确定,而事实上,LPTN对于分解级数L非常鲁棒。以1080p图像为例,分解级数从3调整到5仅仅导致PSNR轻微下降(比如22.09下降到21.95),但推理速度可以加速2倍,内存占用减少为1/6.

visual

上图对比了不同方案的视觉效果对比,可以看到:所提LPTN具有更佳的视觉效果。比如,对于a图,LPTN具有更少的纹理畸变。

全文到此结束,更多消融实验与分析建议各位同学查看原文。

题外语

事实上,拉普拉斯金字塔在low-level中的应用并非本文首次所提出。张磊团队(本文作者团队)在ICCV2019年的RealSR一文中首次将拉普拉斯金字塔用于图像超分,其LPKPN结构如下图所示。

尽管LPTN与LPKPN都采用了拉普拉斯金字塔,两者有这样几点区别:

  • 应用领域方面,LPTN属于风格迁移范畴,而LPKPN则属于图像超分范畴;
  • 在思想方面,LPTN中的采用卷积进行高低频特征进行变换、提炼;而LPKPN则是对高低频特征进行增强;
  • 在结构方面,LPTN的计算量更多聚焦于低分辨率部分,同时引入了掩码思想;而LPKPN则聚焦于高分辨率特征部分,且没有掩码思想。
  • 在op方面,LPTN采用了IN层;而LPKPM采用动态滤波器思想;
  • 在计算效率方面,LPTN可能处理高分辨率图像且推理速度非常快,而LPKPN受限于结构无法处理高分辨率图像。

推荐阅读

  1. Attention in Attention for Super-Resolution
  2. CMDSR | 为解决多退化盲图像超分问题,浙江大学&字节跳动提出了具有退化信息提取功能的CMDSR
  3. CVPR2021|超分性能不变,计算量降低50%,董超等人提出用于low-level加速的ClassSR
  4. CVPR2021 | 性能不变,计算量减少41%,国防科大提出加速图像超分高效推理的SMSR
  5. SANet|融合空域与通道注意力,南京大学提出置换注意力机制
  6. GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
  7. RepVGG|让你的ConVNet一卷到底,plain网络首次超过80%top1精度
  8. Transformer再下一城!low-level多个任务榜首被占领
  9. 46FPS+1080Px2超分+手机NPU,arm提出一种基于重参数化思想的超高效图像超分方案
  10. CVPR2021|将无监督对比学习与超分相结合,国防科大提出了用于盲图像超分的无监督退化表达学习DASR
本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号