赞
踩
暗光增强的主要任务是增强低光图像的能见度和对比度,同时修复隐藏在黑暗中或由于提升亮度而引入的噪声、伪影、颜色畸变等复杂的退化模式。该视频处理技术具备很大的商业价值与学术意义,清华ETH提出Retinexformer,刷新十三大暗光增强榜单,让我们一睹为快。
论文链接:https://arxiv.org/abs/2303.06705
代码链接:https://github.com/caiyuanhao1998/Retinexformer
1.研究动机
根据目前主流的暗光增强技术方向存在不同的优缺点,如何取长补短成为研究的重点,依据技术路线可以分为以下三类。
1.1 朴素方法
朴素方法一般会直接在全局范围内增强整张图像的亮度和对比度。经典的算法有直方图均衡化(histogram equalization )和伽马矫正(Gama Correction)。然而这类算法没有考虑到光照因素,使得增强后的图像与真实光照图像严重不符。
1.2 基于视网膜理论方法
传统感知算法大都基于视网膜理论(Retinex Theory),将一张自然图像解耦为照度图(Illumination)和反射图(Reflectance),并将反射图作为暗光增强后的图像。然而这类算法有两个缺陷。一是假定暗光图像都是干净的,不存在噪声伪影等。然而由于成像设备的缺陷,暗光图像常常带有噪声。二是这类算法依赖于手工设计的图像先验,常常需要调参且表征能力很弱。
1.3 基于神经网络的深度学习方法
现有的深度学习方法大多基于卷积神经网络,不擅长于捕获远距离依赖关系,不利于图像的修复,因为图像中像素不是单独存在的,而是存在一定范围内的依赖关系。部分深度学习算法与视网膜分解理论相结合。然而这类算法大都需要一个冗长的流程,采取一个多阶段的训练方案,分别训练多个不同的 CNN 来做不同的任务,如解耦彩色图像、给反射图去噪、调整照度图等。然后将这些训好的 CNN 连接起来进行微调。整个训练过程繁琐复杂,费时费力。
为了解决上述难题,本位提出了以下的创新点:
【1】提出了首个与视网膜理论相结合的 Transformer 算法,名为 Retinexformer,以用于暗光增强。
【2】设计了一个单阶段视网膜理论框架,名为 ORF(One-stage Retinex-based Framework),不需要复杂的训练和微调流程,只需要一个阶段端到端的训练即可。
【3】设计了一种由光照引导的新型多头自注意机制,名为 IG-MSA(Illumination-Guided Multi-head Self-Attention,IG-MSA),将光照信息作为关键线索来引导长程依赖关系的捕获。
【4】Retinexformer在十三个暗光增强榜单上达到了更好的定量和定性效果,同时在用户研究和黑夜目标检测任务上验证了算法的实用价值。
2. 方案介绍
本文方法的整体框架如图1所示。在图1 (a) 中,Retinexformer 采用我们设计的 ORF。而 ORF 又由两部分构成:(i) 光照估计器(illumination estimator)和 (ii) 退化修复器(corruption restorer)。在图1 (b) 中,我们设计一个光照引导的 Transformer IGT(Illumination-Guided Transformer)来作为退化修复器。IGT 的基本单元是光照引导的注意力块 IGAB (Illumination-Guided Attention Block)。IGAB 由两个层归一化 LN(Layer Normalization),一个 IG-MSA 和一个前馈网络 FFN(Feed-Forward Network)组成,其细节如图1 (c) 所示。
图1. Retinexformer结构框架
2.1 单阶段视网膜理论框架
根据视网膜理论,一个低光图像 I 可以分解为一个反射图 R 和一个照度图 L 的点乘:
然而实际场景中这个视网膜模型不可能是一个纯净无干扰的模型,噪声伪影等退化因素会对低光图像产生影响。因此,我们将这条公式重写为:
分别在反射图和照度图上加入了扰动项。接下来我们希望能够提升低光图像亮度,因此需要在上面等式两边会同时点乘一个亮度图,实现提高亮度的效果,由于亮度图与L点乘结果等于1,则公式2点乘亮度图的结果如公式3所示:
等式右边第三项便表示隐藏在黑暗中的噪声伪影,并在提升亮度过程中被进一步放大。第二项表示点亮过程造成的失曝,过曝和颜色畸变。可将公式(3)式进一步简化为:
其中的 C 表示整体的退化项。基于(4)式,可将ORF推导为如下:
2.2 光照引导的 Transformer
如图1(a)(ii) 所示,IGT采用一个 encoder-bottleneck-decoder 的 U-型结构。其中最重要的组成部件便是 IG-MSA,光照估计器输出的增亮特征图输入到每一个 IG-MSA 当中。在 IG-MSA 当中,输入的特征图首先被变形为 token,然后被分成 k 个 heads:
对每个heads,分别将其线性投影为 Q,K,V:
同时也将增亮特征图形变成 token:
然后在每一个 head 计算自相似时,用光照信息作为引导:
我们的 IG-MSA 的计算复杂度为:
同比全局的MSA的计算复杂度:
IG-MSA 计算复杂度与输入尺寸成线性而全局MSA的计算复杂度与输入成二次相关,因此计算复杂度明显更低。
3. 实验结果
如下表,Retinexformer在LOL系列、SID、SMID、SDSD-in、SDSD-out取得优异的表现,速度性能也比较可观,大幅领先于其他方法
如下图,可视化一些数据集的效果,发现Retinexformer在改善暗场景问题时能够去除噪声,恢复一些细节
4. 总结以及改进方向
Retinexformer在改善暗场景问题取得优异的效果,但是存在一些问题。一个是细节纹理方面,相比做原画增强的模型,纹理破坏了恢复得还不够理想,如图箭头所示。这主要是因为噪声与纹理之间的关系难以区分,模型需要很强的能力,不然纹理可能会被当成噪声去除,从而恢复不出来。第二是存在一些色偏问题,相比GT而言,可以特别设计color loss来进一步提升模型恢复暗场景后向GT对齐颜色空间的能力。如果你想获取更多发文章、改进算法落地的思路,请联系BThoth
BThoth介绍
BThoth必索思,我们团队是来自清华剑桥的优秀硕博、博士后,具备丰富的学术工程经验,如果你想提升自己的ai学术工程能力,那就关注我们吧。报名成功后可以发起老师meeting,验证学历背景、论文成果等,专业、真实、值得信赖。截至10月上榜老师战绩情况如下:
联系方式:
微信号:BThoth 微信公众号: BThoth必索思
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。