赞
踩
编辑:Happy
首发:AIWalker
paper: https://www4.comp.polyu.edu.hk/~cslzhang/paper/LPTN-cvpr21-paper.pdf
code: https://github.com/csjliang/LPTN
本文是港理工&达摩院张磊团队在
image-to-image translation
方面继3DLUT之后的又一力作。本文创造性的将拉普拉斯金字塔与深度学习进行了结合,对于拉普拉斯金字塔的分离、重建特性与image-to-image translation
之间的共通之处进行了分析,进而提出了本文的LPTN。所提LPTN可以在一个常规GPU上对4K分辨率图像进行实时变换,同时取得与其他方案相当甚至更优的性能。
现有image-to-image translation
(I2IT)往往要求使用低分辨率图像,这是因为高分辨率图像会导致过大的内存占用与更长的推理耗时。
本文旨在通过拉普拉斯金字塔分解、重建加速高分辨率图像I2IT。具体来说,我们揭示了:属性变换(比如亮度、色彩)与低频成分更相关,而内容细节可以自适应在高频成分上调节。因此,我们提出了Laplacian Pyramid Translation Network
(LPTN)同时进行这两个任务:我们设计了一个轻量网络在低分辨率上对低频成分进行变换,然后再词用渐进式掩码策略调整高频部分。所提模型可以避免高分辨率特征图导致的重度计算量问题,同时可以忠实的保持图像细节。
不同任务上的实验结果表明:所提方法可以在一个常规GPU上实时处理4K图像并取得同现有方案相当的性能。
上图相同场景不同时间拍摄的图像及其对应的低频、高频信息对比图,可以看到:这两个图像的高频区域MSE差异要远远小于低频区域的MSE差异。类似的现象可以从直方图与视觉效果方面得到证明。也就说:高频子图像具有更细分辨率,而不同级别的子图像显示出了像素级相关性,并表现出相似的纹理。这种属性引出一种用于调整内容细节的高效掩码策略。
基于上述发现,我们提出了一种快速且高效的方法LPTN。具体来说,我们次啊用级联残差模块构建了轻量网络用于处理低频成分,对其进行域相关属性变换;为了对低频分量的处理进行拟合,并忠实地进行图像重建,我们自适应地提炼高频成分以避免高分辨率特征导致地重度计算达到提升效率地目的。因此,我们构建了另外地小网络计算掩码并对其逐步上采样。该方案可以通过对抗训练策略采用无监督方式进行训练。
本文所提方法有这样几个优势:
上图给出了本文所提LPTN网络架构示意图,给定输入图像
I
0
∈
R
h
×
w
×
3
I_0 \in R^{h\times w \times 3}
I0∈Rh×w×3,我们首先通过Laplacian Pyramid
(LP)将其分解为带通成分集合(表示为
H
=
[
h
0
,
h
1
,
⋯
,
h
L
−
1
]
H=[h_0,h_1,\cdots,h_{L-1}]
H=[h0,h1,⋯,hL−1])以及低频残差图像
I
L
I_L
IL,其中L表示LP地分解级数。LP的成分具有越来越小的分辨率:从
h
×
w
h\times w
h×w到
h
2
L
−
1
×
w
2
L
−
1
\frac{h}{2^{L-1}} \times \frac{w}{2^{L-1}}
2L−1h×2L−1w,
I
L
I_L
IL的分辨率为
h
2
L
×
w
2
L
\frac{h}{2^L} \times \frac{w}{2^L}
2Lh×2Lw。LP是一种可逆操作,即原始图像可以通过一系列镜像操作重建。H具有高度不相关性:除了纹理细节外,其他区域的灰度值接近0;而
I
L
I_L
IL则是模糊结果,即每个像素是局部近邻高斯模糊结果。因此,
I
L
I_L
IL反应了图形的全局属性。
受启发于上述LP属性,我们主要在 I L I_L IL上进行变换以调整亮度、色彩,而对H进行自适应提炼以避免重建过程中的伪影问题。此外,我们基于低分辨率结果对高分辨率成分进行渐进式提炼。
LPTN框架包含三个主要部分:
LP的本质属性包含纹理于视觉属性的分离、可逆重建能力,这两个属性非常切合I2IT任务。对于广义纹理调整I2IT任务来说,域相关属性通过深度网络在隐空间及逆行表征。相反,对于逼真I2IT来说,我们发现:域相关熟悉感主要为亮度、色彩,它们可以通过固定核以一种高效方式提取。以前面图示为例,白天-黑夜变换的域相关属性主要体现在低频成分,而高频成分具有强相关性。因此,我们可以在对低分辨率的低频成分进行域相关属性变换,这将极大的降低广义I2I方法的计算复杂度。
以Figure2为例,给定 I L I_L IL,我们首先采用 1 × 1 1\times 1 1×1卷积扩展通道维度;然后采用5个残差模块提取特征;其次我们将特征的通道数降到c以得到变换结果 I ^ L \hat{I}_L I^L。这个输出最终将添加到原始输入并后接Tanh激活函数。
传统的I2IT算法同样采用级联残差模块在低维空间进行变换。本文所提方法有这样几个优势:
为确保调整域相关属性的同时具有忠实重建结果,高频成分 H = [ h 0 , h 1 , ⋯ , h L − 1 ] H=[h_0, h_1, \cdots, h_{L-1}] H=[h0,h1,⋯,hL−1]同样应当参照 I L I_L IL到 I ^ L \hat{I}_L I^L的变换进行自适应调整。
在这里,我们为 h L − 1 h_{L-1} hL−1学习一个掩码并渐进式对其上采样并提炼以适配其他高频成分。按照前面的分析, h L − 1 ∈ R h 2 L − 1 × w 2 L − 1 × c , I L , I ^ L ∈ R h 2 L × w 2 L × c h_{L-1} \in R^{\frac{h}{2^{L-1}} \times \frac{w}{2^{L-1}} \times c}, I_L, \hat{I}_L \in R^{\frac{h}{2^L} \times \frac{w}{2^L} \times c} hL−1∈R2L−1h×2L−1w×c,IL,I^L∈R2Lh×2Lw×c,我们首先对 I L , I ^ L I_L, \hat{I}_L IL,I^L采用双线性插值上采样以匹配 h L − 1 h_{L-1} hL−1的分辨率;然后对三者进行拼接并送入tiny网络。该网络的输出通道数设置为1.
网络的输出掩码
M
L
−
1
∈
R
h
2
L
−
1
×
w
2
L
−
1
×
1
M_{L-1} \in R^{\frac{h}{2^{L-1}} \times \frac{w}{2^{L-1}} \times 1}
ML−1∈R2L−1h×2L−1w×1可以视作
h
L
−
1
h_{L-1}
hL−1的像素掩码。如Figure1所示,两个域图像的高频成分差异非常小。因此,该掩码可以解释为全局调整且更易于优化。因此,我们通过如下方式提炼
h
L
−
1
h_{L-1}
hL−1
h
^
L
−
1
=
h
L
−
1
⊗
M
L
−
1
\hat{h}_{L-1} = h_{L-1} \otimes M_{L-1}
h^L−1=hL−1⊗ML−1
我们通过渐进式方式上采样
M
L
−
1
M_{L-1}
ML−1得到掩码集合
[
M
L
−
2
,
⋯
,
M
1
,
M
0
]
[M_{L-2}, \cdots, M_1, M_0]
[ML−2,⋯,M1,M0]。因此,我们可以采用类似方式对不同的高频成分进行提炼并得到
[
h
^
0
,
h
^
1
,
⋯
,
h
^
L
−
1
]
[\hat{h}_0,\hat{h}_1, \cdots, \hat{h}_{L-1}]
[h^0,h^1,⋯,h^L−1]。最后采用变换后的
I
^
L
\hat{I}_L
I^L与提炼结果
[
h
^
0
,
h
^
1
,
⋯
,
h
^
L
−
1
]
[\hat{h}_0,\hat{h}_1, \cdots, \hat{h}_{L-1}]
[h^0,h^1,⋯,h^L−1]重建得到
I
^
0
\hat{I}_0
I^0。
所提LPTN采用无监督方式进行训练,其优化的损失函数包含重建损失
L
r
e
c
o
n
s
\mathcal{L}_{recons}
Lrecons以及对抗损失
L
a
d
v
\mathcal{L}_{adv}
Ladv。重建损失采用了常规L2损失,对抗损失则基于LS-GAN与多尺度判别器进行设置。总体损失定义如下:
L
=
L
r
e
c
o
n
s
+
λ
L
a
d
v
\mathcal{L} = \mathcal{L}_{recons} + \lambda \mathcal{L}_{adv}
L=Lrecons+λLadv
为扩展I2IT任务到高分辨率场景,我们从Flickr网络收集了两个非成对数据集,器分辨率从1080p变化到4K范围。一个为白天-黑夜变换,一个为夏天-冬天变换。
此外,为定量评估所提方法,我们在MIT-Adobe-FiveK数据集上进行实验对比。参考现有方案,我们采用expertC作为目标。
训练超参方面,我们采用Adam优化器,学习率为0.0001,损失的加权比例为 L r e c o n s : L a d v = 10 : 1 \mathcal{L}_{recons}:\mathcal{L}_{adv}=10:1 Lrecons:Ladv=10:1。
上图对比了不同模块的有效性分析,可以看到:
上表对比了LP分解级数的影响对比,可以看到:
上图对比了不同方案的视觉效果对比,可以看到:所提LPTN具有更佳的视觉效果。比如,对于a图,LPTN具有更少的纹理畸变。
全文到此结束,更多消融实验与分析建议各位同学查看原文。
事实上,拉普拉斯金字塔在low-level中的应用并非本文首次所提出。张磊团队(本文作者团队)在ICCV2019年的RealSR一文中首次将拉普拉斯金字塔用于图像超分,其LPKPN结构如下图所示。
尽管LPTN与LPKPN都采用了拉普拉斯金字塔,两者有这样几点区别:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。