赞
踩
在下面的内容中,我们将详细介绍这些模块。更详细的网络结构和参数可以在补充材料中找到。
3.2. Network Structure
Transformer模块。为了实现全局环境来处理空间变化的雾霾,我们采用了一种具有很强的建模远程依赖能力的变压器。具体来说,我们采用Swin Transformer[21]作为骨干backbone,基于其有效性和效率之间的良好权衡,提取分层变压器特征。其他的变压器骨干也可以在我们的框架中使用。虽然更大的图像补丁可以提高Swin Transformer[21]的计算效率,但它会在每个补丁周围产生明显的边界伪影。因此,我们没有使用默认的图像补丁大小,即4,而是将补丁大小设置为2。我们只采用三阶段Swin Transformer,其中采用轻量级Transformer参数,即注意头的深度和数量分别设置为[2,2,2]和[3,6,9]。我们并没有通过使用更多的参数来发现明显的收益。
CNN编码器模块。为了获得局部特征,我们采用三个卷积块来提取与三阶段Transformer特征相对应的分层卷积特征。在每个卷积块中,两个卷积层之后是ReLU激活函数。在最后一个卷积层之后,采用最大池化层来减小图像的大小。目的是确保CNN特征的大小与Swin变压器相应特征的大小一致。为了实现更大的接受域,我们在每个卷积块的末端使用了一个金字塔池化模块(PPM)[35],它在四个不同的尺度下融合了特征。
功能调制模块。我们发现,与具有局部注意和清晰细节的CNN特征相比,Transformer提取的特征具有独特的特征,如远程注意,但粗糙的纹理,见图4。我们认为这种差异是基于基于自我注意的变压器特征和基于卷积的CNN特征的本质。因此,直接利用常用的特征融合方法,如连接和加法,可能会产生次优性能。
受风格转移和条件图像增强[16,29]的启发,我们将变换器特征作为条件信息,来预测调制矩阵,然后对CNN特征进行调制。这样,我们期望将变压器的长期关注转移到CNN特征上,而不损害CNN特征的细节,这可以表示为:
CNN解码器模块。最后,我们利用足够的特征表示来重建与输入的模糊图像相同大小的无雾对应物。更具体地说,我们首先将调制后的特征、相应的CNN编码器特征和上采样的解码器特征连接起来。在这里,由于粗纹理,我们放弃了相应的变压器特征。然后,将这些连接的特征输入到一个由三个卷积层组成的卷积块中。然后,我们采用包含多条全卷积流的多尺度残差块[32],产生空间精确的特征,自适应地选择图像去模糊的有效特征。在每个卷积块之后,将遵循一个2×的上采样操作,以扩大分辨率。经过三个卷积块后,这些特征被发送到一个卷积层,以生成一个高质量的无雾霾图像。
此外,表1还对所有测试集的定量结果进行了比较。如上所述,我们的方法在sots-户外游戏上获得了最高的PSNR和SSIM分数。此外,我们的方法的PSNR分数在sots室内比较方法中是最高的,而我们的SSIM评分(0.9881vs0.9886)仅比最先进的FFANet [24]低0.0005。结果表明,我们的方法具有良好的性能,得益于变压器和CNN与新的设计。
4.3. Experiments on Real Hazy Images
4.4.消融研究
我们进行了消融研究,以调查我们的设计对图像脱雾性能的影响。研究包括以下消融模型: w/ 2DPE: 2D位置嵌入,即去除我们的变压器模块中的雾霾密度位置;w/o变压器:去除变压器模块,即U-Net样CNN进行图像去模糊;w/o ConvE:删除CNN编码器模块,即变压器模块后跟CNN解码器;没有PPM:删除CNN编码器模块中的金字塔整形模块;w/添加和w/ cat:用添加的特征或特征连接替换特征调制块;没有MRB:去除CNN解码器模块中的多尺度残余块。
这些模型使用与我们的方法相同的训练数据(即完整的模型)进行训练。消融模型在NH-HAZE测试集上的定量结果如表3所示。观察表3,我们可以看到所有的模块都可以提高我们的方法的脱雾性能,这表明了我们的设计的有效性。w/ 2DPE的结果表明,变压器模块中嵌入的雾霾密度信息对于图像去雾化至关重要,将PSNR/SSIM从18.90/0.6373提高到20.66/0.6844。此外,去除变压器模块或CNN编码器模块会显著降低性能,说明变压器与CNN的结合是有效的。与常用的特征添加和连接相比,对CNN特征进行了调制以变压器特性为条件,更适合于将变压器特性与CNN特性结合起来。
图10显示了对消融模型的一些可视化比较。如图所示,w/ 2DPE对结果保持模糊,如红色箭头所示。变压器不能很好地处理浓雾霾,而变压器在结果中产生粗糙的细节。无添加无法恢复颜色检查器的颜色,剩余的烟雾可以在其结果中找到。相比之下,我们的完整模型获得了视觉上更令人愉悦的结果,消除了密集的雾霾,恢复了相对较好的细节。视觉比较再次证明了我们的模块的有效性。
5. Conclusion
在此工作中,我们提出了一种新的单图像去模糊处理方法。这项工作的关键见解是有效地整合变压器特征和CNN特征,并将任务特定于之前的领域知识引入变压器,以提高性能。利用特征调制使我们的方法能够享受变压器和CNN的最佳世界。此外,我们发现通过三维位置嵌入可以有效地将先验信息引入变压器,进一步提高了脱雾性能。广泛的比较表明,我们的方法在合成和真实的基准数据集上达到了最先进的性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。