当前位置:   article > 正文

USID-Net: Unsupervised Single Image Dehazing Network via Disentangled Representations-TMM(2022)

usid-net: unsupervised single image dehazing network via disentangled repres

paper: https://ieeexplore.ieee.org/document/9745359 

code: https://github.com/dehazing/USID-Net

        同一个场景下的雾霾图像和清晰图像不易获取。因此,现有的大多数基于深度学习的图像去雾方法都是采用合成的成对图像对网络模型进行有监督的训练,然而合成数据和真实数据之间分布是不一致的,当这些在合成数据上训练的模型应用在真实的雾霾图像时,其性能会明显下降。还有一些基于深度学习的去雾方法结合大气散射模型,使用神经网络对模型中的参数进行估计实现图像去雾。然而,当中间参数估计的不准确时,误差会被累积放大;并且雾霾成像模型中存在着许多假设,当实际的雾霾图像与假设不一致时,这些方法并不能取得理想的去雾效果。此外,去雾模型的推理速度对于一些要求网络实时性的应用系统也是非常重要的。

        本文提出了一种无监督的单幅图像去雾网络,该方法通过分解表示从雾霾图像分离出雾霾噪声信息并恢复出清晰无雾的图像。此外,为了提升模型性能并尽可能减少内存占用,本文设计了一个紧凑的多尺度特征注意力模块,通过整合多尺度特征表示和注意力机制增强了网络的特征表达能力。同时本文设计了一个雾霾编码器用来从雾霾图像中高效地提取出雾霾信息,该编码器通过多频特征表示可以获取更多的全局信息帮助网络进行去雾。所提方法在合成数据集和真实数据集上均获得比现有去雾算法更好的表现,同时具有较快处理速度,这验证了所提方法的有效性。

        USID-Net整体框架如图1所示,包括分离框架、多尺度特征注意力(Multi-scale feature attention, MFA)模块和雾霾编码器OctEncoder E_I^H。分离框架的输入为不成对的清晰图像和雾霾图像,通过从雾霾图像中分离出雾霾信息,从而生成无雾的清晰图像。同时,分离出来的雾霾信息z_I^H  被用来协助清晰图像转换为相应的假的雾霾图像。本文设计的MFA模块使用了自动编码器结构,通过整合多尺度特征表示和注意力机制增强了网络的特征表达能力。此外,雾霾编码器OctEncoder通过对特征进行多频表示可以有效地编码雾霾信息,并提升网络去雾性能。

图1 基于分解表示的无监督去雾网络的整体框架示意图

        分离框架采用了通用的域迁移架构,即从雾霾域到清晰域。如图1所示,内容编码器E_IE_J 分别用于编码清晰图像和雾霾图像的内容信息;雾霾编码器E_I^H用于提取输入的雾霾图像I的雾霾信息z_I^H;生成器G_IG_J用于生成相应域的图像;鉴别器D_ID_J分别用于雾霾域和清晰域,用来鉴别生成图像的真实性。

        雾霾信息E_I^H(I)与内容特征E_J(J)一起被送入生成器G_J,并得到图像I_{c\rightarrow h}。由于I_{c\rightarrow h}J添加雾霾后的图像,所以不包含I的内容信息,因此这种网络结构可以帮助雾霾编码器E_I^H更高效地对I的雾霾信息进行编码。

        网络整体流程包括前向翻译和后向重建两个部分。在前向翻译过程中,给定一幅雾霾图像I和一幅清晰图像J,对其分别进行编码可以得到特征z_I 、 z_I^H 和z_J,然后对编码后的特征进行解码得到前向翻译的输出,去雾图像J_{h\rightarrow c}和加雾图像I_{c\rightarrow h}。在完成前向翻译后,网络在向后重建过程中通过交换输入J_{h\rightarrow c}I_{c\rightarrow h},可以得到类似的重建图像I_{res}J_{res}对应原始图像IJ

多尺度特征注意力模块

        在大多数情况下,图像中的雾霾噪声分布是不均匀的,不同位置的特征对网络的去雾能力有着不同程度的贡献。因此,本文在MFA模块中引入了注意力机制,通过对不同的通道信息和空间信息进行加权,可以使网络对信息量更大的特征给予更多关注,从而提高网络去雾能力。注意力模块的详细结构如图2所示,通过融合通道注意力和空间注意力,网络可以更加灵活地处理不同类型的信息。

 图2 注意力模块结构图

雾霾编码模块

        雾霾图像的形成过程是非常复杂的,因此需要使用高效的雾霾编码器从雾霾图像中提取出雾霾信息。与MFA模块中的内容编码器相比,雾霾编码器应该从雾霾图像中提取全局信息对不同程度的雾霾进行建模。本文设计了一个雾霾编码器OctEncoder,通过低频和高频特征图之间的有效信息交换扩大了感受野的范围,从而能够获取到更多的全局信息,并增强了网络对雾霾信息的提取能力。雾霾编码器通过对特征进行多频表示,从而高效地对输入图像中的雾霾信息进行编码,其详细的网络结构如图3所示。

3 雾霾编码器OctEncoder的结构图

损失函数

     本文提出的算法在整体设计上采用了无模型的方法,因此,设置一个合理的损失函数至关重要。在提出的框架中,结合对抗损失、内容对抗损失、循环一致性损失、暗通道损失、恒等映射损失、重建损失、语义一致损失等损失函数来训练网络。其中,对抗损失:对抗损失对生成的清晰和雾霾图像的分布进行约束。内容对抗损失:本文利用内容判别器D_c促使编码后的内容特征z_Iz_J服从相似的分布,这帮助内容编码器E_I有效地从雾霾图像中提取内容信息。循环一致性损失:循环一致损失计算原始输入图像和向后重建生成的图像之间的损失,使重建的图像尽可能包含原始图像的信息。暗通道损失:暗通道先验认为清晰无雾图像的暗通道大部分的值为0或者接近0。本方法在训练过程中使用了暗通道损失,通过使去雾后图像的暗通道和清晰图像保持一致,从而提升去雾效果。恒等映射损失:本文在网络的训练过程中使用了恒等映射损失用来保留图像特征,从而提高转换的图像的质量并稳定训练过程。重建损失:除了使用循环一致损失计算重建图像的误差,本文还使用了重构损失来促进网络的训练。语义一致损失:此外,本文还使用了语义一致损失保留图像的结构信息。通过预训练的网络提出的较深层的特征是不包含噪声信息或者包含很少的噪声信息的。

实验结果

     在本文提出的方法中,分别使用了室内和室外训练数据集进行训练。在SOTS-outdoor、HazeRD和HSTS等测试集对模型进行测试,测试结果如表1所示。本文除了在合成雾霾图像上与其他先进的去雾算法进行定量的比较,真实雾霾图像上主观结果比较如图4所示,本文算法取得了最优主观效果。模型参数和运行时间对比如表2所示,本文方法具有更轻量级的模型参数和较快的处理速度。本文在RTTS数据集上评估了本章的去雾方法,在对雾霾图像进行去雾操作后,利用预训练的YOLOv5-L目标检测模型来检测图像中的目标,测试结果如表3所示,本文方法对雾霾图像进行去雾处理后,检测精度得到了明显提高。

表1 不同去雾方法在合成数据集上去雾结果的定量对比

图4 不同去雾方法在真实雾霾图像上的主观结果

表2 不同去雾方法的运行时间

表3不同去雾算法在RTTS数据集上的目标检测结果

        本文提出了一种无模型无监督的图像去雾方法,通过分解表示从雾霾图像中分离出雾霾信息并生成去雾图像。该方法可以使用真实雾霾图像进行无监督训练,不需要成对的训练集。网络中使用的多尺度特征注意力模块通过整合多尺度特征表示和注意力机制增强了网络的特征表达能力。此外,为了获得更真实的去雾图像,本文设计了一个雾霾编码器对雾霾信息进行高效的编码,它通过对特征进行多频表示可以有高效地提取雾霾信息。在合成和真实的雾霾图像上进行的大量实验表明,本文方法在与目前先进的去雾方法相比取得很好的表现,验证了本文提出方法的优越性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/618536
推荐阅读
相关标签
  

闽ICP备14008679号