当前位置:   article > 正文

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读(翻译+精读)_dce-net的输入是一个低光图像,而输出是一组对应高阶曲线的像素曲线参数图

dce-net的输入是一个低光图像,而输出是一组对应高阶曲线的像素曲线参数图

学习资料:

目录

Abstract—摘要

翻译

精读

一、Introduction—简介

翻译

精读

二、Related Work—相关工作

Conventional Methods—传统方法

翻译

精读

Data-Driven Methods—数据驱动的方法

翻译

精读

三、Methodology—方法

3.1 Light-Enhancement Curve (LE-curve)—光增强曲线(LE曲线)

翻译

精读

Higher-Order Curve—高阶曲线

翻译

精读

Pixel-Wise Curve—像素曲线

翻译

精读

3.2 DCE-Net

翻译

精读

3.3 Non-Reference Loss Functions—无参考损失函数

翻译

精读

Spatial Consistency Loss—空间一致性损失

Exposure Control Loss—曝光控制损失

Color Constancy Loss—颜色恒定损失

Illumination Smoothness Loss—照明平滑度损失

Total Loss—总体损失

四、Experiments—实验

实施细节

翻译

精读

4.1 Ablation Study—消融实验

Contribution of Each Loss—各损失函数的贡献

翻译

精读

Effect of Parameter Settings—参数设置效果

Impact of Training Data—训练数据的影响

4.2 Benchmark Evaluations—基准评估

翻译

精读

4.2.1 Visual and Perceptual Comparisons—视觉和感知比较

翻译

精读

 4.2.2 Quantitative Comparisons—定量比较

翻译

精读

4.2.3 Face Detection in the Dark—黑暗中的人脸检测

翻译

精读

五、Conclusion—结论

翻译

精读

Abstract—摘要

翻译

本文提出了一种新的方法,零参考深度曲线估计(Zero-DCE),它将光线增强作为一个具有深度网络的图像特定曲线估计任务。我们的方法训练了一个轻量级的深度网络DCE-Net,以估计给定图像的动态范围调整的像素和高阶曲线。曲线估计是专门设计的,考虑到像素值范围,单调性和可微性。Zero-DCE在其对参考图像的宽松假设中是有吸引力的,即,它在训练期间不需要任何配对或未配对的数据。这是通过一组精心制定的非参考损失函数来实现的,这些函数隐式地测量增强质量并驱动网络的学习。我们的方法是有效的,图像增强可以通过一个直观和简单的非线性曲线映射。尽管它的简单性,我们表明,它概括以及不同的照明条件。在各种基准上进行的大量实验表明,我们的方法在定性和定量方面优于最先进的方法。此外,我们的Zero-DCE在黑暗中的人脸检测的潜在好处进行了讨论。


精读

本文提出的方法

(1)提出了一个零参考深度曲线估计(Zero-DCE)将光线增强转换为了一个image-specific曲线估计问题(图像作为输入,曲线作为输出),通过非参考损失函数实现,从而获得增强图像。

(2)通过训练一个轻量级的网络(DCE-NET),来预测一个像素级的,高阶的曲线;并通过该曲线来调整图像。

本文取得效果

  • 整个方法在多个数据集上都取得了SOTA
  • 在黑暗中的人脸检测取得成效


一、Introduction—简介

翻译

由于不可避免的环境和/或技术限制,许多照片通常在次优照明条件下捕获。这些问题包括环境中的照明条件不足和不平衡,物体在极端背光下的位置不正确,以及图像拍摄过程中曝光不足。这种低光照片的美学质量和信息传输不令人满意。前者影响观众的体验,而后者导致错误的信息被传达,例如不准确的物体/面部识别。

在这项研究中,我们提出了一种新的基于深度学习的方法,零参考深度曲线估计(ZeroDCE),用于弱光图像增强。它可以科普不同的照明条件,包括不均匀和光线不足的情况。而不是执行图像到图像的映射,我们重新制定的任务作为一个图像特定的曲线估计问题。特别地,所提出的方法以低光图像作为输入,并产生高阶曲线作为其输出。然后,这些曲线用于对输入的动态范围进行逐像素调整,以获得增强的图像。曲线估计是精心制定的,以便它保持增强图像的范围,并保留相邻像素的对比度。重要的是,它是可微的,因此我们可以通过深度卷积神经网络学习曲线的可调参数。所提出的网络是轻量级的,它可以迭代地应用于近似高阶曲线,以实现更鲁棒和更准确的动态范围调整。

我们基于深度学习的方法的一个独特优势是零引用,即,它在训练过程中不需要任何配对或甚至不配对的数据,如现有的基于CNN的方法[28,32]和基于GAN的方法[12,38]。这是通过一组专门设计的非参考损失函数,包括空间一致性损失,曝光控制损失,颜色恒定性损失和照明平滑性损失,所有这些都考虑到光增强的多个因素。我们表明,即使使用零参考训练,Zero-DCE仍然可以与其他需要配对或未配对数据进行训练的方法竞争。图1中示出了增强包括非均匀照明的低光图像的示例。与最先进的方法相比,Zero-DCE在保留固有颜色和细节的同时使图像变亮。相比之下,基于CNN的方法[28]和基于GAN的EnlightenGAN [12]都会产生(面部)和(橱柜)增强。

我们的贡献概述如下。

1)我们提出了第一个独立于配对和非配对训练数据的低光照增强网络,从而避免了过度拟合的风险。因此,我们的方法很好地推广到各种照明条件。

2)我们设计了一个图像特定的曲线,能够近似像素和高阶曲线迭代应用本身。这样的图像特定曲线可以在宽动态范围内有效地执行映射。

3)我们展示了在没有参考图像的情况下,通过任务特定的非参考损失函数来训练深度图像增强模型的潜力,该函数间接评估增强质量。

我们的Zero-DCE方法在定性和定量指标方面都取代了最先进的性能。更重要的是,它能够改善高级视觉任务,例如,人脸检测,而不会造成高的计算负担。它能够实时处理图像(在GPU上处理大小为640×480×3的图像约为500 FPS),训练时间仅需30分钟。


精读

本文提出零参考深度曲线估计(Zero-Reference Deep Curve Estimation, Zero-DCE),用于弱光图像增强。

本文训练方法

本文训练一个轻量级的深度网络DCE-Net

  • 首先,以弱光图像为输入以产生高阶曲线为输出
  • 然后,利用这些曲线对输入图像进行像素级调整,以获得增强的图像

  • 最后,输出图像

本文贡献

①是第一个不依赖于成对和非成对训练数据的弱光增强网络,从而避免了过拟合的风险。

②设计一种特定的曲线,能够迭代运用于自身来近似像素和高阶曲线。这种曲线能够在动态范围内有效的进行映射

③提出了一种无参的损失函数,来直接估计增强图像的质量。


二、Related Work—相关工作

Conventional Methods—传统方法

翻译

常规方法。基于HE的方法通过扩展图像的动态范围来执行光增强。图像的直方图分布在全局[7,10]和局部水平[15,27]进行调整。也有各种方法采用Retinex理论[13],通常将图像分解为反射率和照明。反射率分量通常被假设为在任何照明条件下是一致的,因此,光增强被配制为照明估计问题。基于Retinex理论,已经提出了几种方法。Wang等人[29]设计了一种在处理非均匀照明图像时保持自然度和信息的方法; Fu等人[8]提出了一种加权变分模型来同时估计输入图像的反射率和照明; Guo等人。[9]首先通过搜索RGB通道中每个像素的最大强度来估计粗略的照明图,然后通过结构先验来细化粗略的照明图; Li等人。[19]提出了一种考虑噪声的新Retinex模型。通过求解一个优化问题来估计光照图。与传统的偶然改变图像直方图分布或依赖于可能不准确的物理模型的方法相反,所提出的ZeroDCE方法通过图像特定的曲线映射产生增强的结果。这样的策略使得能够在图像上进行光增强,而不会产生不真实的伪影。Yuan和Sun [36]提出了一种自动曝光校正方法,其中通过全局优化算法估计给定图像的S形曲线,并通过曲线映射将每个分割区域推到其最佳区域。与[36]不同的是,我们的Zero-DCE是一种纯数据驱动的方法,在非参考损失函数的设计中考虑了多个光增强因子,因此具有更好的鲁棒性,更宽的图像动态范围调整和更低的计算负担。数据驱动的方法。


精读


Data-Driven Methods—数据驱动的方法

翻译

数据驱动方法主要分为两个分支,即基于CNN的方法和基于GAN的方法。大多数基于CNN的解决方案依赖于成对数据进行监督训练,因此它们是资源密集型的。通常情况下,配对数据是通过自动光降解、在数据捕获期间改变相机的设置或通过图像修饰合成数据来详尽收集的。例如,LLNet [20]是在随机伽马校正模拟的数据上训练的;配对的低/正常光图像的LOL数据集[32]是通过在图像采集期间改变曝光时间和ISO来收集的; MIT-Adobe FiveK数据集[3]包括5,000张原始图像,每张图像都有五张由训练有素的专家制作的修饰图像。

最近,Wang等人。[28]通过估计照明图提出了一种曝光不足的照片增强网络。这个网络是在由三位专家修改的配对数据上训练的。可以理解的是,考虑到收集足够的配对数据所涉及的高成本以及在训练深度模型时包含不真实和不切实际的数据,基于配对数据的光增强解决方案在许多方面都是不切实际的。这种约束反映在基于CNN的方法的泛化能力差。文物和颜色铸造是生成,当这些方法与各种光强度的真实世界的图像。基于无监督GAN的方法具有消除成对数据进行训练的优点。EnlightenGAN [12],一种基于无监督GAN的先驱方法,它使用未配对的低/正常光数据来学习增强低光图像。通过考虑精心设计的鉴别器和损失函数来训练网络。然而,基于无监督GAN的解决方案通常需要仔细选择未配对的训练数据。提出的Zero-DCE在三个方面上级现有的数据驱动方法。首先,它探索了一种新的学习策略,即,一个需要零参考,因此消除了配对和非配对数据的需要。其次,考虑到仔细定义的非参考损失函数,训练网络。该策略允许隐式地评估输出图像质量,其结果将在网络学习中重复。第三,我们的方法是高效和成本效益。这些优势得益于我们的零参考学习框架,轻量级网络结构和有效的非参考损失函数。


精读

  • CNN:大多数使用配对的数据(低光、正常光图像)进行训练,通常通过改变相机的设置或用图像修饰来合成。这种数据集通常是通过人工收集或人工合成来得到的,用这种数据集训练出来的模型泛化能力不好。

  • GAN:无监督训练,有消除配对数据进行训练的优势,但要仔细选择未配对的训练数据。

  • Zero-DCE:

    • 俺们不需要参考,消除了配对和非配对数据的需要。

    • 该策略允许隐式地评估输出图像质量,其结果将在网络学习中重复。

本文的方法是高效和成本效益。这些优势得益于我们的零参考学习框架,轻量级网络结构和有效的非参考损失函数。


三、Methodology—方法

3.1 Light-Enhancement Curve (LE-curve)—光增强曲线(LE曲线)

翻译

我们在图2中展示了零DCE的框架。设计了一种深度曲线估计网络(DCE-Net),用于在给定输入图像的情况下估计一组最佳拟合的光增强曲线(LE-曲线)。然后,该框架通过迭代地应用曲线来映射输入的RGB通道的所有像素,以获得最终的增强图像。接下来,我们将详细介绍Zero-DCE中的关键组件,即LE曲线、DCE-Net和非参考损失函数。

受图片编辑软件中曲线调整的启发,本文尝试设计一种曲线调整方法,能够自动将弱光图像映射到增强图像,其中自适应曲线参数完全依赖于输入图像。该曲线的设计有三个目标:1)增强图像的每个像素值应在[0,1]的归一化范围内,以避免溢出截断引起的信息损失; 2)该曲线应是单调的,以保持差异(对比度);以及3)该曲线的形式应该尽可能简单并且在梯度反向传播过程中是可微的。为了实现这三个目标,我们设计了一个二次曲线,它可以表示为:

其中x表示像素坐标,LE(I(x); α)是给定输入I(x)的增强版本,α ∈ [−1,1]是可训练的曲线参数,它调整LE曲线的幅度,也控制曝光水平。每个像素都被归一化为[0,1],所有操作都是逐像素的。我们将LE曲线分别应用于三个RGB通道,而不是仅应用于照明通道。三通道调节可以更好地保留固有颜色,降低过饱和的风险。我们在补充材料中报告更多细节。图2(B)示出了具有不同调整参数α的LE曲线。很明显,LEcurve符合上述三个目标。此外,LE曲线使我们能够增加或减少输入图像的动态范围。这种能力不仅有利于增强弱光区域,去除过度曝光的伪像。


精读

图2:(a)零DCE框架。设计了一个DCE-Net来估计一组迭代增强给定输入图像的最佳拟合光增强曲线(LE曲线)。(B,c)具有不同调整参数α和迭代次数n的LE曲线。在(c)中,α1、α2和α3等于-1,而n等于4。在每个子图中,横轴表示输入像素值,而纵轴表示输出像素值

曲线设计目的

能够自动将弱光图像映射到增强图像,其中自适应曲线参数完全依赖于输入图像。

曲线设计要求

  • 增强图像的像素值归一化为[0,1],这避免了由于溢出截断而导致的信息丢失

  • 曲线应保持单调,以保持相邻像素的差异(对比度)

  • 在梯度反向传播过程中,该曲线的形式应尽可能简单

曲线公式

  • X:表示像素坐标

  • I(X):输入图像

  • LE(I(X);\alpha ):输出图像

  • \alpha:为输入图像I(x)的增强结果,α∈[−1,1]是可学习参数,同时控制曲线的级数和曝光水平

在不同的α参数设置下,图像如下图所示:


Higher-Order Curve—高阶曲线

翻译

高阶曲线。方程中定义的LE曲线(1)可以反复应用,以实现更通用的调整,以科普具有挑战性的低光条件。具体来说

其中n是迭代次数,它控制曲率。在本文中,我们将n的值设置为8,这可以令人满意地处理大多数情况。当量(2)可以降级为Eq。(1)当n等于1时。图2(c)提供了一个例子,显示了具有不同α和n的高阶曲线,这些曲线具有更强大的调节能力(即,更大的曲率)比图2(B)中的曲线。


精读

通过迭代上式(1)定义的LE-Curve,可以使得调整变得更灵活,从而使得模型能够适应于各种challenging的弱光条件下:

  • n:控制曲率的迭代次数。(本文n=8)当n为1时,式(2)就退化为了(1)。

(c) 中提供了high-order Curve的示例


Pixel-Wise Curve—像素曲线

翻译

像素曲线。高阶曲线可以在更宽的动态范围内调整图像。尽管如此,它仍然是一个全局调整,因为α用于所有像素。全局映射倾向于过度增强/不足增强局部区域。为了解决这个问题,我们将α公式化为逐像素参数,即,给定输入图像的每个像素具有相应的曲线,该曲线具有最佳拟合α以调整其动态范围。因此,Eq。(2)可以重新表示为:

其中A是与给定图像大小相同的参数映射。这里,我们假设局部区域中的像素具有相同的强度(也具有相同的调整曲线),因此输出结果中的相邻像素仍然保持单调关系。以这种方式,逐像素的高阶曲线也符合三个目标。我们在图3中给出了三个通道的估计曲线参数图的示例。如图所示,不同通道的最佳拟合参数图具有相似的调整趋势但具有不同的值,这表明弱光图像的三个通道之间的相关性和差异性。曲线参数图精确地指示不同区域的亮度(例如,墙上的两个闪光点)。利用拟合映射,可以直接通过逐像素曲线映射获得增强版本图像。如图3(e)所示,增强版本揭示了暗区域中的内容并保留了亮区域。


精读

高阶曲线的不足

由于α应用于所有的像素,所以仍为全局调整,会导致过度增强/不足增强局部区域、

为了实现局部调整,将高阶曲线的单一参数α改为像素级参数得到像素级曲线——即给定输入图像的每个像素都有一条与最佳拟合α 相对应的曲线来调整其动态范围。因此曲线公式重新定义为:

  • A :与给定图像相同大小的参数映射。
图3:逐像素曲线参数映射的示例。为了可视化,我们对所有迭代(n = 8)的曲线参数图进行平均,并将值归一化到[0,1]的范围。AR n、AG n和AB n分别表示R、G和B通道的平均最佳拟合曲线参数图。(B)、(c)和(d)中的图由热图表示。

3.2 DCE-Net

翻译

为了学习输入图像与其最佳拟合曲线参数映射之间的映射,我们提出了深度曲线估计网络(DCE-Net)。DCE-Net的输入是一个低光图像,而输出是一组对应高阶曲线的像素曲线参数图。我们采用了一个普通的CNN,它有七个卷积层,具有对称的级联。每一层由32个大小为3×3的卷积核组成,步长为1,后面是ReLU激活函数。我们放弃了向下采样和批量归一化层,相邻像素的关系。最后一个卷积层之后是Tanh激活函数,它为8次迭代(n = 8)产生24个参数图,其中每次迭代需要三个通道的三个曲线参数图。DCE-Net的详细结构见补充材料。值得注意的是,对于大小为256×256×3的输入图像,DCE-Net只有79,416个可训练参数和5.21G触发器。因此,它是轻量级的,可以用于计算资源有限的设备,如移动的平台。


精读

  • 输入:一个低光图像
  • 输出:一组对应高阶曲线的像素曲线参数图

DCE网络结构

(1)backbone:DCE-Net包含七个具有对称跳跃连接的卷积层:conv-ReLU 重复 6 次 + conv-Than,注意:它具有对称的级联,即第 1/2/3 层输出和第 6/5/4 层输出进行通道级联(concatenation)

(2)conv层:3x3x32,stride=1,n=8

(3)参数:整个网络的参数量为79,416

(4)Flops:Flops为5.21G(input 为256x256x3)


3.3 Non-Reference Loss Functions—无参考损失函数

翻译

为了在DCE-Net中实现零参考学习,我们提出了一组可区分的非参考损失,使我们能够评估增强图像的质量。采用以下四种类型的损失来训练我们的DCE-Net。

空间一致性损失。空间一致性损失Lspa通过保留输入图像与其增强版本之间的相邻区域的差异来促进增强图像的空间一致性:

其中K是局部区域的数量,并且k(i)是以区域i为中心的四个相邻区域(上、下、左、右)。我们将Y和I分别表示为增强版本和输入图像中局部区域的平均强度值。我们根据经验将局部区域的大小设置为4×4。在给定其他区域大小的情况下,该损失是稳定的。

曝光控制损失。为了抑制曝光不足/过度区域,我们设计了一个曝光控制损失Lexp来控制曝光水平。曝光控制损失测量局部区域的平均强度值与良好曝光水平E之间的距离。我们遵循现有的实践[23,24]将E设置为RGB颜色空间中的灰度级。我们在实验中将E设置为0.6,尽管我们没有发现将E设置在[0.4,0.7]范围内的性能差异。损失Lexp可以表示为:

其中M表示大小为16×16的非重叠局部区域的数目,Y是增强图像中局部区域的平均强度值。

颜色恒定性损失。根据灰色世界颜色恒定性假设[2],即每个传感器通道中的颜色在整个图像上平均为灰色,我们设计了一个颜色恒定性损失来校正增强图像中的潜在颜色偏差,并建立了三个调整通道之间的关系。颜色恒定性损失Lcol可以表示为:

其中,Jp表示增强图像中p个通道的平均强度值,(p,q)表示一对通道。

照明平滑度损失。为了保持相邻像素之间的单调性关系,我们向每个曲线参数图A添加照明平滑度损失。光照平滑度损失LtvA被定义为:

其中N是迭代次数,分别表示水平和垂直梯度运算。

总体损失。总损失可以表示为:

其中Wcol和WtvA是损失的权重。


精读

Spatial Consistency Loss—空间一致性损失

目的

通过保持输入图像与增强图像相邻区域的梯度促进图像的空间一致性。

方法

  1. 首先计算输入图像和增强图像在通道维度的平均值(将R、G、B三通道加起来求平均),得到两个灰度图像​​​​​​​

  2. 然后分解为若干个4×4patches(不重复,覆盖全图)

  3. 最后计算patch内中心i与相邻j像素差值,求平均

公式

  • K:局部区域的数量

  • \Omega (i):是以区域 i为中心的四个相邻区域(顶部、下、左、右)

  • Y:增强版本的局部区域的平均强度值

  • I:输入版本的局部区域的平均强度值 


Exposure Control Loss—曝光控制损失

目的

抑制曝光不足/过度区域,控制曝光水平。

方法

测量的是局部区域的平均强度值与良好曝光水平(E=0.6 ,经验设置)之间的距离。

  1. 首先将增强图像转为灰度图​​​​​​​

  2. 然后分解为若干 16×16 patches(不重复,覆盖全图)

  3. 最后计算 patch 内的平均值

公式

  • M:大小为16×16的不重叠局部区域个数

  • Y :增强图像中某个局部区域的平均强度值


Color Constancy Loss—颜色恒定损失

目的

用于纠正增强图像中的潜在色偏,同时也建立了三个调整通道之间的关系。

方法

  1. 首先将提亮图像分成RGB三通道,计算每个通道的平均亮度​​​​​​​

  2. 然后将不同通道的平均亮度两两相减,求平均和

Color Constancy Loss值越小,说明提亮图像颜色越平衡,损失越大则说明提亮图像可能有色偏的问题

公式

  • J^{p} :增强后图像中p通道的平均强度值

  • (p,q):一对颜色通道


Illumination Smoothness Loss—照明平滑度损失

目的

保持相邻像素之间的单调关系。

启发

将所有通道、所有迭代次数的 A (也就是网络的输出),其横竖的梯度平均值应该很小

公式

  • N :迭代次数

  • \bigtriangledown x:水平梯度

  • \bigtriangledown y​ :垂直梯度


Total Loss—总体损失

W_{col}W_{tvA}​ :损失的权重。(本文W_{col}=0.5,W_{tvA} =20)


四、Experiments—实验

实施细节

翻译

实施细节。基于CNN的模型通常使用自捕获的配对数据进行网络训练[5,17,28,30,32,33],而基于GAN的模型精心选择未配对的数据[6,11,12,16,35]。为了充分发挥宽动态范围调整的能力,我们将低光照和过度曝光的图像合并到我们的训练集中。为此,我们使用SICE数据集[4]第1部分中的360个多次曝光序列来训练所提出的DCE-Net。该数据集也被用作EnlightenGAN [12]中训练数据的一部分。我们将Part1子集[4]中不同曝光水平的3,022张图像随机分为两部分(2,422张用于训练,其余用于验证)。我们将训练图像的大小调整为512×512。

我们在NVIDIA 2080 Ti GPU上使用PyTorch实现了我们的框架。应用的批量为8。每一层的滤波器权重初始化为标准的零均值和0.02标准差高斯函数。偏差初始化为常量。我们使用带有默认参数和固定学习率1e −4的ADAM优化器进行网络优化。权重Wcol和WtvA分别设置为0.5和20,以平衡损失的规模。


精读

  • 训练图像:2422 张

  • 测试图像:600张

  • 图像大小:512 × 512

  • batch size:8

  • 权重初始化:均值为0,方差为0.02的标准差高斯函数

  • 偏置初始化:常量

  • 学习率:1e −4

  • 优化器:ADAM

  • Wcol​ :0.5

  • WtvA​ ​ :20


4.1 Ablation Study—消融实验

Contribution of Each Loss—各损失函数的贡献

翻译

我们进行了几项消融研究,以证明Zero-DCE每个组件的有效性,如下所示。更多的定性和定量比较见补充材料。每个损失的贡献。我们在图4中展示了通过各种损失组合训练的ZeroDCE的结果。没有空间一致性损失的结果Lspa具有相对较低的对比度(例如,云区域)比完整的结果。这表明了Lspa在保持输入和增强图像之间的相邻区域的差异方面的重要性。去除曝光控制损失Lexp无法恢复低光区域。当丢弃颜色恒常性损失Lcol时,出现严重的色偏。当应用曲线映射时,此变体忽略三个通道之间的关系。最后,去除光照平滑度损失LtvA阻碍了相邻区域之间的相关性,导致明显的伪影。


精读

图4:每种损失(空间一致性损失Lspa,曝光控制损失Lexp,颜色恒定性损失Lcol,illu)的贡献的消融研究
  • (c)去除Lspa​ :对比度较低(例如:云区)

  • (d)去除Lexp​ :无法恢复低光区域

  • (e)去除Lcol​ :出现了严重的色偏

  • (f)去除LtvA​ ​ :出现了明显的伪影


Effect of Parameter Settings—参数设置效果

图5:参数设置影响的消融研究。l-f-n表示具有l个卷积层、每个层(除了最后一层)的f个特征图和n次迭代的所提出的零DCE
  • (b)Zero-DCE 3 −32−8:已经可以产生令人满意的结果,表明零参考学习的有效性

  • (e)Zero-DCE 7 −32−8和(f)ZeroDCE 7 −32−16:在自然曝光和适当对比度下效果不错

  • (d)Zero-DCE 7 −32−1:性能明显下降

选择Zero-DCE 7 −32−8作为最终模型,因为它在效率和恢复性能之间有很好的权衡。


Impact of Training Data—训练数据的影响

图6:消融研究对训练数据的影响

不同数据集

  • (b)Zero−DCE low​ :2422 张图像,其中900张低光图像

  • (c)Zero−DCE LargeL​ :暗脸数据集提供的9000张未标记的低光图像

  • (e)Zero−DCE LargeLH​ :来自SICE数据集Part1和Part2子集的数据增强组合的4800幅多次曝光图像

实验效果对比

(c)、(d):倾向过度增强光照良好的区域(例如:面部),表明了多曝光训练数据的合理性和必要性

(e):能更好地恢复暗区域


4.2 Benchmark Evaluations—基准评估

翻译

我们将Zero-DCE与几种最先进的方法进行比较:三种传统方法(SRIE [8],LIME [9],Li等人。[19]),两种基于CNN的方法(RetinexNet [32],Wang等人。[28])和一种基于GAN的方法(EnlightenGAN [12])。使用公开的源代码与推荐的参数的结果进行复制。

我们对以前的作品中的标准图像集进行了定性和定量实验,包括NPE [29](84张图像),LIME [9](10张图像),MEF [22](17张图像),DICM [14](64张图像)和VV ESTA(24张图像)。此外,我们在SICE数据集[4]的第2部分子集上定量验证了我们的方法,该子集由229个多次曝光序列和每个多次曝光序列对应的参考图像组成。为了进行公平的比较,我们仅使用第2部分子集[4]的低光图像进行测试,因为基线方法无法很好地处理过度曝光的图像。具体来说,我们选择前三个(分别为)。四个)低光图像,如果有七个(分别为九)图像在多重曝光序列,并调整所有图像的大小为1200×900×3。最后,我们获得了767对低/正常光图像。我们放弃了[37]中提到的低/正常光图像数据集,因为RetinexNet [32]和EnlightenGAN [12]的训练数据集包含来自该数据集的一些图像。请注意,[28]中构建的最新配对训练和测试数据集尚未公开。我们没有使用MIT-Adobe FiveK数据集[3],因为它主要不是为曝光不足的照片增强而设计的。


精读

对比的方法​​​​​​​

  • 传统方法:SRIE等

  • 基于CNN的方法:RetinexNet等

  • 基于GAN的方法:EnlightenGAN等

使用数据集

NPE、LIME、MEF、DICM、VV以及SICE的Part2


4.2.1 Visual and Perceptual Comparisons—视觉和感知比较

翻译

我们在图7中展示了典型低光图像的视觉比较。对于具有挑战性的背光区域(例如,如图7(a)中的面部),Zero-DCE产生自然曝光和清晰的细节,而SRIE [8],LIME [9],Wang等人。[28]和EnlightenGAN [12]不能清晰地恢复面部。RetinexNet [32]会产生过度曝光的伪影。在以室内场景为特征的第二个例子中,我们的方法增强了暗区域,同时保留了输入图像的颜色。结果是视觉上令人愉悦的,没有明显的噪音和偏色。相比之下,Li等人。[19]过度平滑细节,而其他基线放大噪声,甚至产生颜色偏差(例如,墙的颜色)。

我们进行了用户研究,以量化各种方法的主观视觉质量。我们通过不同的方法处理来自图像集(NPE,LIME,MEF,DICM,VV)的低光图像。对于每个增强的结果,我们将其显示在屏幕上,并提供输入图像作为参考。邀请总共15名人类受试者独立地对增强图像的视觉质量进行评分。这些受试者过观察以下结果来训练:1)结果是否包含过度/不足曝光的伪像或过度/不足增强的区域; 2)结果是否引入颜色偏差;以及3)结果是否具有不自然的纹理和明显的噪声。视觉质量评分范围为1 - 5分(最差到最佳质量)。每个图像集的平均主观评分报告在表1中。如表1所示,Zero-DCE在上述图像集的总共202个测试图像中获得了最高的平均用户研究(US)分数。对于MEF、DICM和VV集,我们的结果最受试者的青睐。除了US评分外,我们还采用非参考感知指数(PI)[1,21,25]来评估感知质量。PI度量最初用于测量图像超分辨率中的感知质量。它也被用于评估其他图像恢复任务的性能,例如图像去雾[26]。较低的PI值指示较好的感知质量。PI值也报告在表1中。类似于用户研究表明,所提出的Zero-DCE在平均PI值方面上级其他竞争方法。


精读

图7:典型低光图像的视觉比较。红框表示明显的差异

结论:像SRIE、LME、等传统方法和目前的SOTA都会出现不能清晰恢复面部、出现伪影、放大噪声、颜色偏差等问题、但是本文提出的Zero-DCE可以实现不错的视觉效果。

表1:用户研究(US)↑/图像集(NPE、LIME、MEF、DICM、VV)上的感知指数(PI)↓评分。较高的US分数指示较好的人类主观视觉质量,而较低的PI值指示较好的感知质量。最好的结果是红色的,而第二好的结果是蓝色的

结论:在人类主观评价中,Zero-DCE在多个数据集上取得了最好的结果。


 4.2.2 Quantitative Comparisons—定量比较

翻译

对于全参考图像质量评估,我们采用峰值信噪比(PSNR,dB),结构相似性(SSIM)[31]和平均绝对误差(MAE)度量来定量比较不同方法在第2部分子集上的性能[4]。在表2中,提出的Zero-DCE在所有情况下都达到了最佳值,尽管它没有使用任何配对或未配对的训练数据。Zero-DCE也是计算效率高的,得益于简单的曲线映射形式和轻量级的网络结构。表3显示了不同方法在32个大小为1200×900×3的图像上的平均运行时间。


精读

表2:全参考图像质量评估指标的定量比较。最好的结果是红色的,而第二好的结果是蓝色的

结论:尽管没有使用任何配对或未配对的训练数据,Zero-DCE在所有情况下都达到了最佳值。

表3:时间(RT)比较(以秒计)。最好的结果是红色的,而第二好的结果是蓝色的

结论:Zero-DCE计算效率最高。


4.2.3 Face Detection in the Dark—黑暗中的人脸检测

翻译

我们研究了弱光图像增强方法在弱光条件下人脸检测任务的性能。具体来说,我们使用最新的DARK FACE数据集[37],该数据集由10,000张在黑暗中拍摄的图像组成。由于测试集的边界框不是公开的,我们对由6,000张图像组成的训练集和验证集进行了评估。使用在WIDER FACE数据集[34]上训练的最先进的深度面部检测器Dual Shot Face Detector(DSFD)[18]作为基线模型。我们将不同低光图像增强方法的结果馈送到DSFD [18],并在图8中描绘了精确度-召回率(P-R)曲线。此外,我们还使用DARK FACE数据集[37]中提供的评估工具¶比较了平均精度(AP)。

如图8所示,在图像增强之后,与使用未经增强的原始图像相比,DSFD [18]的精度显著增加。在不同的方法中,RetinexNet [32]和Zero-DCE表现最好。这两种方法是可比的,但Zero-DCE在高召回率区域表现更好。实验结果表明,Zero-DCE算法能够有效地提高人脸在极暗区域的亮度,并保留光照良好的区域,从而提高了人脸检测器在黑暗环境中的检测性能。


精读

图8:黑暗中人脸检测的性能。PR曲线,AP,以及我们的Zero-DCE增强前后的两个人脸检测示例

结论:Zero-DCE算法能够有效地提高人脸在极暗区域的亮度,并保留光照良好的区域,从而提高了人脸检测器在黑暗环境中的检测性能。


五、Conclusion—结论

翻译

我们提出了一种用于弱光图像增强的深度网络。它可以用零参考图像进行端到端训练。这是通过将低光图像增强任务制定为图像特定的曲线估计问题,并设计一组可微的非参考损失来实现的。实验表明,我们的方法优于现有的光增强方法。在未来的工作中,我们将


精读

本文为实现低照度图像增强提出了Zero-Reference Deep Curve Estimation(Zero-DCE)零参考深度估计曲线,将光增强表示为使用深度神经网络估计特定曲线的任务。

优点:

  • 设计一个零参考深度曲线估计(Zero-DCE),将光线增强转换为了一个image-specific曲线估计问题
  • 通过非参考损失函数实现,不依赖于成对和非成对训练数据的弱光增强网络
  • 设计了四种损失函数对网络进行训练,作者认为是实现光线增强的关键,这也是本文最主要的创新点
  • 是轻量级网络,训练速度快,计算效率高

改进:

  • 尝试引入语义信息来解决困难的情况下,并考虑噪声的影响。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/451736?site
推荐阅读
相关标签
  

闽ICP备14008679号