当前位置:   article > 正文

论文解读-AAAI20嵌入图像结构知识的图像修复方法_learning to incorporate structure knowledge for im

learning to incorporate structure knowledge for image inpainting

引言:图像修复是计算机视觉和计算摄影学中一个重要研究方向,可用于老照片的修复,图片的编辑等,兼具科研和商业价值。本博文将带您详细解读AAAI2020最新图像修复论文Learning to Incorporate Structure Knowledge for Image Inpainting。介绍该算法提出的背景、关键方法及实验等。(该图像修复算法由中国科学院大数据挖掘和知识管理重点实验室提出,发表于人工智能顶会AAAI2020,详见其github项目)

简介

       现有的基于深度学习的图像修复/补全算法没有很好地去挖掘图像中的一些先验信息,比如图像中的物体的边缘、轮廓及语义等结构性信息。如果预先已知这些结构信息将有助于图像修复,生成视觉上或感知上更合理、更sharp的图像。该论文的主要创新就在于探索如何在图像修复的过程中,将这些结构性知识嵌入其中。

框架

       为实现该目标,该文作者提出了一种基于深度卷积神经网络的多任务学习框架用于图像修复,如下图所示。该框架的核心思想在于学习挖掘图像中的有关的结构知识,并将这些结构知识融入图像修复过程,以辅助图像修复。具体地,在多任务框架下,该方法学习一个参数共享的生成器,同时完成两个任务:修复破损的图像和预测相应的结构-边缘和梯度。通过这种方法,可以隐式地约束生成器在修复时结合相关的图像结构知识。与此同时,引入了一种结构知识嵌入策略,将学习到的结构特征直接嵌入到图像修复的过程中,从而为图像的修复提供相关的先验知识。
architexture

结构嵌入层

       结构嵌入层(Structure Embedding Layer)将结构生成分支的相关特征在不同尺度融入到生成器的解码阶段,以作为图像生成的可能先验知识。结构嵌入层首先从图像生成分支中分离出来,学习特定的结构特征并预测可能的结构,然后将学习到的结构特征合并到解码器,用于下一阶段解码。这种分离-合并的模式为图像生成提供了可能的结构先验条件,解码器可以学习是否利用该结构特征。
       在本文实现中,作者用了一个标准的残差块来表示该嵌入层。此外,作者巧妙地使用sobel算子来提取图像的的sobel梯度图,用于表征图像的结构-边缘和梯度,如下图所示。
sobel

注意力层

       此外,作者还提出了一种注意力机制(Attention Mechanism),以期充分利用图像中的重复出现的结构模式来精细化生成的修复后的图像。该注意力机制实际类似于何凯明等提出的非局部平均网络(Non-local Mechanism)[1]或Goodfellow等提出的Self-Attention[2]。其输出特征图位置处的响应为整个输入特征图中特征的加权和,并使用特征相似度来衡量权重或注意力得分。通过这种注意力机制,可以将来自周围图像区域的相似特征转移到缺失区域,以此细化生成的内容和结构(例如平滑伪影和增强细节)。该注意力层结构如下图所示。
attention

损失函数

金字塔结构损失

       为在图像修复过程中学习融入图像的结构知识,该文作者特别设计了一种新的金字塔图像结构损失,来监督结构的生成和特征嵌入,从而将结构信息融入到生成过程中。具体来说,就是在网络预测结构输出后(也即上文提到的sobel梯度图),在不同尺度的结构输出上构建两个L1损失项:(1)预测的梯度图与真实的梯度图L1损失;(2)关于边缘结构的L1正则化项。
第(2)正则损失项的设计也是该论文的巧妙之处。为了引导网络学习预测图像中的边缘或轮廓结构,一般直接的做法就是预测边缘或轮廓,如图像修复模型[3]和[4]。而本论文中,作者没有直接去预测可能的边缘,而是先去预测sobel梯度图。因为该梯度图中是包含有边缘信息(边缘提取算法canny就是在梯度图中提取可能的边缘,如梯度较大的位置就是潜在的边缘处),因此,只需要预测该梯度图,就能预测边缘结构。为了更好地引导网络学习预测边缘结构,论文中进一步引入隐式正则化项,即在该梯度图中真实的边缘处(论文中使用了canny算子在原图中提取的边缘位置作为真实的边缘)赋予更多的损失权重。
       作者进一步解释了这种间接的方式更适合当前多任务框架中的原因。一方面,由于图像的边缘结构通常是稀疏的,只包含图像的二值轮廓信息,因此在生成过程的最后几个阶段,生成这样的边缘结构与图像生成任务几乎没有共同的特征,因此,必须设计用于边缘生成任务的特定的网络层,这样引入更多参数。另一方面,梯度图本身不仅传递了可能的边缘信息,而且还代表了纹理信息或高频细节,这对于精细纹理合成是非常重要的。
L s t r u c t u r e = L g r a d i e n t + β L e d g e L_{structure}=L_{gradient}+\beta L_{edge} Lstructure=Lgradient+βLedge

混杂图像损失

       该损失项与现有基于深度学习模型的修复方法类似。主要包括像素重建损失(reconstruction loss)、感知损失(perception loss)、风格损失(style loss)和对抗性损失(adversarial loss)。
L i m a g e = L r e c + λ 1 L p e r c + λ 2 L s t y l e + λ 3 L a d v L_{image}=L_{rec}+\lambda_{1} L_{perc}+\lambda_{2} L_{style}+\lambda_{3} L_{adv} Limage=Lrec+λ1Lperc+λ2Lstyle+λ3Ladv

实验

       论文在CelebA、Places2和Facade三个数据集上对上述方法进行了评估,并与state-of-the-art图像修复方法进行定性和定量的比较。实验表明,修复后的图像质量上优于当前的最好的几种图像修复方法。这应该得益于该算法充分挖掘了图像结构知识,如采用多任务学习框架、结构嵌入和注意力等多种机制。部分结果见定性与定量评估。具体细节可参见该论文

定性评估

celeba
places2

消融分析

       此外,作者还对其所提出新方法的各个组件进行了详尽地消融研究,分析各组件对图像修复最终性能的影响。具体以EdgeConnect[3]中图像生成器为baseline,然后逐步加入多任务学习策略(MT)、结构嵌入(SE)及金字塔结构损失、注意机制(AT),直至建立完整的模型。
        结果表明,基于多任务训练的生成器能生成更令人满意的图像结构(例如,尖锐的面部和口部轮廓),这表明所提出的多任务策略对于将结构知识融入修复过程具有很大的潜力。此外,随着结构特征的显式嵌入,修复效果进一步提高(如轮廓和纹理更加清晰)。此外,在有注意机制的情况下,最终修复的图像可通过利用图像中相似的结构和模式对结果进行细节化。
ablation

Demo

       为了评估修复模型的实际泛化能力,作者基于opencv开发了一个轻量级的交互式的图像修复工具。其可以完成256x256大小的图像中对象移除的实验。下图展示了对在联网上下载的图片进行对象移除的实验。
demo1
demo2

总结与评论

       本人认为该论文的创新之处在于探索如何将图像中的先验知识融入到图像修复的过程当中。这种先验知识的挖掘和使用将会是图像修复研究的新方向。这种多任务的学习方式,可以进行拓展,如构建其他有助于图像修复的任务,如语义分割任务,其能够提供关于图像中物体语义信息。此外,该论文提出的金字塔结构损失较容易进行扩展,如对其他的结构(如物体的轮廓,语义分割后的结果等)设计正则项,从而学习相关的图像结构信息。同时,该损失也可以迁移到其他图像生成任务,如图像超分、去噪等。

参考文献
[1] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7794-7803.
[2] Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[J]. arXiv preprint arXiv:1805.08318, 2018.
[3] Nazeri K, Ng E, Joseph T, et al. Edgeconnect: Generative image inpainting with adversarial edge learning[J]. arXiv preprint arXiv:1901.00212, 2019.
[4] Xiong W, Yu J, Lin Z, et al. Foreground-aware image inpainting[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2019: 5840-5848.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/817176
推荐阅读
相关标签
  

闽ICP备14008679号