赞
踩
论文源码:
https://download.csdn.net/download/zhouaho2010/87393184
Abstract
图像去雾是低层视觉中的一个活跃话题,随着深度学习的快速发展,许多图像去雾网络被提出。尽管这些网络的工作良好,但提高图像去雾性能的关键机制仍不清楚。出于这个原因,我们不打算提出一个具有奇特模块的去雾网络;相反,我们对流行的U-Net进行最小的修改以获得紧凑的去雾网络。具体来说,我们将U-Net中的卷积块交换为具有门控机制的残差块,融合主路径的特征映射,并使用选择核跳过连接,并调用得到的U-Net变体gUNet。因此,gUNet以显著降低的开销,在多个图像去雾数据集上优于最先进的方法。最后,通过广泛的消融研究验证了这些关键设计对图像去雾网络性能增益的影响。
1. Introduction
图像去雾化长期以来一直是低级视野讨论的话题,因为雾霾是一种常见的大气现象,对公共安全和个人生活造成损害。在恶劣天气下获得更好的照片是供个人使用的图像脱雾的主要用例,这些功能经常包含在照片编辑软件中。此外,图像去模糊通常被认为是工业使用高级视觉任务的先决条件。例如,使用图像去模糊模块作为预处理模块来提高自动驾驶系统的鲁棒性是可行的。这使得图像去模糊成为低水平视觉的代表性任务之一,越来越受到研究人员和关注的关注。
图像去模糊的目标是从模糊图像中恢复无雾图像。研究人员经常使用大气散射模型[36,39,40]来表征模糊图像的退化过程:
一般来说,图像去模糊化方法可以大致分为基于先验的方法和基于学习的方法。早期的图像脱雾方法主要是基于手工先验的[3,13,16,62]。近年来,由于基于学习的方法的优越性能,许多研究人员正在研究图像脱模糊网络[4,24,42,47]。虽然许多令人印象深刻的图像脱雾网络,但提高脱雾性能的关键仍不清楚。在本文中,我们着重探讨了图像去模糊网络的关键设计。我们回顾了著名的图像去雾网络,并发现了两个显著的性能提高的时刻。第一个是GCANet [5]和GridDehazeNet [29],它们都引入了提取多尺度信息,不再分别预测A和t (x),而是用来预测潜在的无雾图像或无雾图像与模糊图像之间的残差。第二个是FFA-Net [42],提出了一种引入像素注意模块和通道注意模块的深度网络。其他作品也提出了合理的修改建议。然而,这些修改只带来适度的性能提高,但使网络更加复杂和难以部署。
我们试图创建一个最小的实现,它基于上面提到的观察结果来合并这些关键的设计。具体来说,我们首先使用经典的具有局部残差[17]和全局残差[59]的U-Net [32]作为我们的基础架构来提取多尺度信息。然后,我们使用深度可分离的卷积层[21,45]来聚合空间信息并有效地变换特征。此外,我们将全局信息的提取分配给基于SK模块[26]的模块,该模块通过通道动态地融合来自不同路径的特征映射。最后,我们在卷积块中引入了门控单元,这些门控单元作为像素注意模块和非线性激活函数。提出了两个关键模块,即门控机制为gConv块的剩余块模块和通道注意机制的融合模块为SK融合层模块。这里我们将我们的模型命名为gUNet,因为它是一个带有门控的简单U-Net变体。
我们评估了gUNet在四个图像去模糊数据集上的性能,对于每个数据集,我们训练了四个不同深度的变体。实验结果表明,gUNet可以在显著较低的开销下大大优于同期方法。图1显示了在最常用的SOTS室内集合上,gUNet与其他图像除雾方法的比较。可以看出,gUNet的四种变体都在图表的左上角,这意味着它们在较低的计算成本下优于所有的图像脱模糊方法。特别是,微型模型gUNet-T优于DehazeFormerB,依赖于10%的计算成本和32%的参数,而小模型gUNet-S优于PMNet,仅使用5.6%的计算成本和7.4%的参数。更重要的是,我们对所有四个数据集进行了广泛的消融研究,以验证这些关键设计。实验结果表明,该模块在图像去模糊处理方面可以获得一致的性能提高。
3.1. Motivation
我们首先描述了gUNet的动机,它是基于从以前的工作中获得的关键设计。第一个是多尺度信息的提取,我们使用经典的U-Net [32]作为我们的基础架构,它生成不同大小的特征图,从而提取多尺度特征。然后,我们将局部残差[17]加入卷积块,将全局残差[59]加入网络。为了在不显著增加参数数量和计算成本的情况下使网络更深入,我们使用深度可分离卷积[21,45]来有效地聚合信息和变换特征。现在网络设计的关键是如何利用注意机制来提高网络的表达能力。我们还记得等式(1)并发现大气光A是一个共享的全局变量,而t (x)是一个与位置相关的局部变量。在FFA-Net中,信道注意模块是唯一能够有效提取全局信息的模块。我们认为,通道注意机制有效地提取了编码A所需的信息,这也是FFA-Net正常工作的原因之一。然而,虽然信道注意模块的计算成本很小,但它所引入的参数的数量和延迟时间是不可忽略不计的。我们认为估计应该是一个简单的任务,因为有很多方法[4,16,43,58]分配大部分的计算资源来估计t (x)但使用轻量级模块来估计。因此我们只分配这个任务的融合模块基于SK模块[26],动态融合特征地图从不同的路径。相应地,像素注意模块的目的是使网络更加关注信息特征。我们发现GLU [7,46]中的门电机制也起着类似的作用。为此,我们在卷积块中引入了门控机制,并使其作为像素注意模块和非线性激活函数。
我们的gConv主要基于gMLP [27]和GLU [7,46]。假设x是特征映射,我们首先通过xˆ=批规范(x)使用批规范[23]对其进行归一化。为了进行推断,批处理规范使用了在训练集上跟踪的统计数据的指数移动平均值。它可以与相邻的线性层合并,更符合轻量级网络的要求。此外,批规范没有LayerNorm [2]的缺点,它打破了前[47]中提到的空间相关性。
其中,PWConv为点向卷积层,DWConv为深度向卷积层。然后我们使用x1作为x2的门控信号,然后使用另一个PWConv进行投影,输出用恒等快捷方式x求和,可以表述为:
在其他图像恢复任务[6,48,56]中,使用门控机制来提高网络的表达能力并不是一个新想法。与我们的工作最相似的工作是NAFNet [6],考虑到我们俩都不使用传统的非线性激活函数,如ReLU和GELU,而只依赖于门控机制来实现非线性。相比之下,NAFNet使用GLU的双线性变体(即没有任何非线性激活函数),我们使用原始版本的GLU版本(即使用sigmoid作为门控函数)。
最后,我们通过y=a1xˆ1+a2x2融合xˆ1,x2。为了减少参数的数量,MLP的两个PWConv层分别是降维维和增维层,这与传统的通道注意机制[22]一致。
3.5. Implementation Details
为简单起见,我们将每级gConv块数设置为{M、M、M、2M、M、M、M},信道数设置为{N、2N、4N、8N、4N、2N、N},其中M为基块数,N为基信道数。为了验证gUNet的可伸缩性,我们提出了四种gUNet变体(-T、-S、-B和-D,分别适用于微小、小、基本和深)。我们将所有变体的DWConv的宽度和核大小k设置为相同的,特别是N = 24和k = 5。这四种变体只在深度上有所不同,我们将它们的基块数M设置为{2、4、8、16}。
我们使用4张卡的RTX-3090来训练我们的模型。在训练时,图像被随机裁剪到256个×256个补丁中。考虑到不同的数据集有不同的样本数,我们将每个纪元的样本数设置为16384,总周期为1000,其前50个用于预热,最后200个用于FrozenBN。这样,我们就可以排除训练迭代的影响,更好地分析不同数据集上的消融研究的差异。受GPU内存的限制,我们将{-T、-S、-B、-D}的小批处理大小分别设置为{128、128、64、32}。对于gUNet-D,它的规范化批处理大小小于16,所以我们启用了SyncBN。基于线性缩放规则[14],我们将{-T、S、B、D}的初始学习速率设置为{16、16、8、4}×10−4。我们使用AdamW优化器[34](β1 = 0.9,β2 = 0.999)和余弦退火策略[33]对模型进行训练,其中学习率从初始学习率逐渐下降到{16,16,8,4}×10−6。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。