当前位置:   article > 正文

【深度学习】Image Inpainting with Cascaded Modulation GAN and Object-Aware Training,级联调制GAN和目标感知训练的图像补全

image inpainting with cascaded modulation gan and object-aware training

论文:https://arxiv.org/abs/2203.11947
code:https://github.com/htzheng/CM-GAN-Inpainting

Abstract

最近的图像修复方法取得了很大的进展,但在处理复杂图像中的大型缺失时,往往难以生成合理的图像结构。部分原因是缺乏能够捕捉图像的长程依赖性和高级语义的有效网络结构。我们提出了级联调制生成对抗网络(CM-GAN),这是一种新的网络设计,由带有Fourier卷积块的编码器和带有新颖级联全局空间调制块的双流解码器组成。在每个解码器块中,首先应用全局调制来进行粗略和语义感知的结构合成,然后进行空间调制,以进一步以空间自适应的方式调整特征图。此外,我们设计了一种物体感知的训练方案,以防止网络在缺失区域产生新的虚构对象,满足现实世界场景中的对象去除任务需求。我们进行了大量实验,结果显示我们的方法在定量和定性评估方面都明显优于现有方法。请参考项目页面:https://github.com/htzheng/CM-GAN-Inpainting。

Introduction

图像修复(Image inpainting)是将图像中缺失的区域补全的任务,如图1所示。这是计算机视觉中的一个基本任务,并具有许多实际应用,例如对象去除[57,55]和操纵[33,34]、图像重定向[41,46,4]、图像合成[7]和3D照片效果[32,24]。

早期的修复方法利用基于补丁的合成[4,25,9]或颜色扩散[3,6,42,10],通过从可见区域传播重复纹理和模式来填充缺失的区域。为了更好地完成更复杂的图像结构,近期的研究努力转向采用数据驱动方案,其中学习深度生成网络来预测视觉内容和外观[54,55,57,44,59]。

通过在大量图像语料库上进行训练,并辅助重建和对抗性损失,生成式修复模型已经显示出在包括自然图像和人脸在内的各种输入数据上产生更具视觉吸引力的结果。

虽然现有的方法已经在完成简单图像结构方面显示出了有希望的结果,但在生成复杂的整体结构和具有高保真细节的图像内容方面仍然面临着巨大挑战,特别是当缺失区域较大时。从根本上讲,如何精确地将全局上下文传播到不完整的区域,并在整体线索的基础上合成逼真的局部细节,是图像修复的关键问题。为了解决全局上下文传播的问题,现有网络采用了编码器-解码器结构[37,18,36]、扩张卷积[53,55]、上下文注意力[54,55,52]或Fourier卷积[44],以融入长程特征依赖性以扩展有效的感受野[28]。此外,两阶段方法[50,54,55,31,49]和迭代补洞[57]预测出粗糙结果,如平滑图像、边缘/语义图或部分完成图,以增强全局结构。然而,这些模型缺乏捕捉未遮罩区域中的高级语义的机制,并将其有效地传播到缺失区域以合成整体全局结构。由于典型的浅层瓶颈设计,设计的特征传播层较少考虑全局语义,更容易生成不连贯的局部细节,可能导致视觉伪影。

最近,基于特征调制的方法[20,21,36]在控制图像生成方面显示出非常有希望的结果。借助全局代码来捕捉整个图像的上下文,CoModGAN [59]试图将全局上下文注入生成器,以填充非常大的缺失区域[59]。然而,由于缺乏空间自适应性,全局调制对缺失区域内的损坏编码特征非常敏感(如图3所示)。他们的结果显示,通过这种方式传递全局信息不足以合成高质量的全局结构,可能导致严重的伪影,如大面积未见颜色斑块[59]或不一致的视觉外观,如变形的结构,见图5。

为了寻求更好的方式将全局上下文注入到修复区域,我们研究了通过级联全局和空间调制的新调制方案。

我们提出级联调制生成对抗网络(CM-GAN),这是一个新的生成网络,可以合成更好的整体结构和局部细节,见图1和图5。不同于[59]试图对部分无效的编码器特征进行全局调制,如图3所示,我们的空间自适应调制方案在全局调制后级联使用,更加有效地处理洞内的无效特征。虽然过去已经提出了几种空间自适应调制方案[35,22]来处理修复问题,但我们的级联调制方法与这些方法显著不同:1)我们的空间代码来自解码阶段而不是编码阶段,避免对解码器进行调制时出现无效的编码特征(见图3),2)我们将全局代码融入空间调制以强制全局-局部一致性,3)我们引入双分支设计,将全局和局部特征解耦以实现结构-细节分离,4)我们设计了空间感知解调,而不是实例或批归一化,以避免潜在的“滴液伪影"[21]。此外,在编码器端,我们在编码器网络的每个阶段注入快速Fourier卷积[8],以扩展编码器的感受野,允许网络捕捉图像上的长程相关性。

考虑到的另一个设计方面是如何生成用于修复训练的合成掩码。我们需要为真实世界的修复用例设计掩码,例如对象去除和部分对象完成。以前的方法通过随机放置矩形[37,18]或不规则形状[55,59]的掩码来生成训练数据。然而,用户在常见的使用情况下绘制的掩码可能具有现有对象的形状,或者是对象的一部分,或者是其他相对简单的形状,如涂鸦或斑点。此外,用户通常希望去除的对象由背景纹理和结构填充,因此不希望在洞内出现新的对象。然而,使用随机位置的掩码训练的模型往往在对象边界产生颜色渗透效应,并在洞内生成类似对象的伪影斑块[59]。在更好的尝试中,最近的一个工作[57]利用显著性注释来模拟由前景显著对象遮挡的分心对象留下的洞。

然而,显著性注释仅捕捉大的主导前景对象,因此算法构建的大洞包括大部分其他不显著的对象。这与实际使用情况不同,实际上只需要去除少数分散的对象。

我们发现,通过合适和更仔细地设计的物体感知训练方案,可以解决产生虚假对象、斑块和对象边界上的颜色渗透效应的问题。在训练的掩码采样方面,不同于随机掩码[55,59,44,27,39]或显著性掩码[57],我们利用实例级全景分割模型[26]生成物体感知的掩码,更好地模拟真实的分心物体或杂乱移除用例。为了避免在洞内生成扭曲的对象或颜色斑块,我们过滤掉整个对象或大部分对象被掩码覆盖的情况。此外,全景分割提供精确的对象边界,因此防止训练模型在对象边界处渗漏颜色。

最后,在训练损失方面,我们提出了一个专门为修复设计的遮罩R1正则化,并将对抗性损失与由分割模型提取的感知损失相结合,以提高鲁棒性。新的正则化避免了对掩码外模型的惩罚,从而更好地将输入条件与生成内容分离。因此,新的正则化消除了在背景上计算正则化可能产生的潜在有害影响。

我们的贡献有四个方面:1)级联调制生成对抗网络,一个新的修复网络架构,由带有Fourier卷积块的遮罩图像编码器和级联全局空间调制解码器组成。2)一个物体感知的掩码生成方案,防止模型在洞内生成新的对象,并模拟真实的修复用例。3)一种遮罩R1正则化损失,稳定修复任务的对抗性训练。4)在Places2数据集上,对各种类型的掩码取得了最先进的结果。

Related works

Image Inpainting

图像修复具有悠久的历史。传统上,基于补丁的方法[11,25,4,9]从已知区域搜索并复制粘贴补丁,逐步填充目标洞。同时,基于扩散的方法[3,6,42,10]通过偏微分方程描述和解决洞内的颜色传播。上述方法可以在完成简单形状的同时产生高质量的静态纹理,但它们缺乏建模高级语义的机制,无法完成洞内的新语义结构。

近年来,修复方法转向数据驱动方案,通过学习深度生成模型以端到端的方式直接预测洞内填充的内容。通过对深度生成模型进行对抗性训练[12],学习的模型可以捕捉图像的更高级表示,从而产生更具视觉合理性的结果。具体而言,Pathak等人[37]首先利用编码器-解码器网络,并加入瓶颈层来预测洞填充的缺失结构。Iizuka等人[18]提出了一个双判别器设计,分别鼓励全局和局部一致性。为了使生成器更好地捕捉全局上下文,已经进行了几次尝试。受结构-纹理分解原理[2,5]的启发,两阶段网络预测图像的中间表示,如平滑图像[54,15,52,47,57]、边缘[31,49]、梯度[51]或分割图[43],以增强最终输出。Yu等人[54]设计了上下文注意力,明确让网络在全局范围内借用补丁特征。为了扩展网络的感受野,Iizuka等人[18]和Yu等人[54]将扩张卷积融入生成器中。类似地,Suvorov等人[44]利用Fourier卷积[8]来获得全局感受野。此外,提出了特征门控,如部分卷积[27]和门控卷积[55],用于处理洞内的无效特征。为了增强全局预测能力,Zhao等人[59]提出了一种编码器-解码器网络,利用风格代码调制进行全局级结构修复。为了增强对抗性损失并抑制伪影,现有的方法[54,55,44,57,31]通常使用附加的重构目标训练生成器,如’1、感知[19]或上下文[37]损失。最近,Suvorov等人[44]提出使用分割网络计算感知损失,取得了更好的性能。

Feature Modulation for Image Synthesis

源自风格迁移[16],特征调制[17,20,21]已广泛应用于结合输入条件进行受控生成[48,36,1,59,35,61,45]。

现有的调制方法通常利用批归一化或实例归一化来对输入特征进行标准化。然后,通过根据从输入条件预测的仿射参数对标准化的激活进行缩放和偏移来实现调制。最近,Karras等人[21]发现标准化会导致“滴液伪影”,因为网络可以创建一个强激活峰值来通过标准化层传递信号。因此,StyleGAN2 [21]用一个提出的解调步骤[21]替换特征标准化,以获得更好的图像合成效果。为了根据空间变化的特征图调制输入特征,提出了空间调制方法[35,22,1,48]。本质上,这些方法利用卷积层来预测用于空间调制的2D仿射参数。然而,特征标准化使得现有方法[1,48]在设计原则上与StyleGAN2不太一致。

Regularization for Adversarial Training

对抗性训练因其难以使对抗网络达到全局纳什均衡[14]而被认为是具有挑战性的[29]。因此,提出了各种正则化方法来稳定GAN训练。特别地,提出了权重标准化[40]和谱标准化[30]来约束鉴别器的Lipschitz连续性。同样,Gulrajani等人[13]提出了梯度惩罚来对鉴别器施加K-Lipschitz约束。Mescheder等人[29]提出了R1正则化,以惩罚鉴别器在真实数据上的梯度,后来被[21,59,44]等工作采用。Karras等人[21]提出了对生成器的感知路径长度正则化,以确保映射的平滑性,并提出了惰性正则化以优化训练效率。

Method

Cascaded Modulation GAN

为了更好地建模图像完成的全局上下文[54,55,57,56,52,59,44],我们提出了一种新颖的机制,将全局代码调制与空间代码调制级联,以便处理部分无效的特征并更好地将全局上下文注入到空间区域中。这导致了一种名为级联调制生成对抗网络(CM-GAN)的新架构,如图1所示,能够出色地合成整体结构和局部细节。

网络概述:如图2(左图)所示,CM-GAN基于一个编码器分支和两个并行的级联解码器分支来生成视觉输出。具体而言,它从一个编码器开始,该编码器将部分图像和掩码作为输入,产生每个尺度1≤i≤L(L是具有最小空间尺寸的最高级别)的多尺度特征图F(1)e;…;F(L)e。与大多数编码器-解码器方法[54,44]不同,并为了便于完成整体结构,我们从最高级别特征F(L)e中提取全局风格代码s,并进行一个L2规范化。

此外,使用基于MLP的映射网络[21]从噪声中生成一个风格代码w,模拟图像生成的随机性。代码w与s组合在一起,产生全局代码g = [s; w],用于后续的解码步骤。

全局-空间级联调制:为了更好地在解码阶段连接全局上下文,我们提出了全局-空间级联调制(CM)。如图2(右图)所示,解码阶段基于两个分支,即全局调制块(GB)和空间调制块(SB),分别并行地上采样全局特征Fg和局部特征Fs。与现有方法[55,57,47,44,59]不同,CM设计引入了一种新的方法将全局上下文注入到洞区域。在概念上,它由每个尺度上特征之间的级联全局和空间调制组成,并自然地整合了三种补偿机制来建模全局上下文:1)特征上采样允许GB和SB利用前两个块生成的低分辨率特征中的全局上下文;2)全局调制(图2的青色箭头)允许GB和SB利用全局代码g来生成更好的全局结构;3)空间调制(图2的蓝色箭头)利用空间代码(GB的中间特征输出)进一步将细粒度的视觉细节注入到SB中。

具体来说,如图2(右图)所示,解码器的每个级别的CM由并行的GB块(黄色)和SB块(蓝色)组成,它们通过空间调制相互连接。

图2:左图:CM-GAN架构,包括带有FFC块的编码器和带有级联全局调制块(GB)和随后空间调制块(SB)的双流解码器。该级联调制方案从全局调制特征图中提取空间风格代码(而不是从之前的工作中使用的编码器特征图中提取),以使空间调制对修复更加有效。右图:每个尺度上的级联调制。GB和SB分别以F in g和F in s作为输入,并产生上采样特征F out g和F out s。具体来说,我们应用联合全局-空间调制,以确保在全局和局部尺度上都有生成一致性。

在这里插入图片描述

这样的并行块以F in g和F in s作为输入,并输出F out g和F out s。特别地,GB利用一个初始上采样层跟随一个卷积层来分别生成中间特征X和全局输出F out g。这两个层都通过全局代码g [21]调制来捕捉全局上下文。

由于全局代码g在表示二维场景方面具有有限的表达能力,并且修复洞内存在噪声的无效特征[55,27],仅进行全局调制会生成与上下文不一致的扭曲特征,如图3所示,并导致视觉伪影,例如大的颜色斑块和不正确的结构,如图7所示。为了解决这个关键问题,我们将GB级联到SB,以校正无效特征并进一步注入空间细节。SB还利用全局代码g来合成局部细节,同时尊重全局上下文。具体来说,SB以空间特征F in s作为输入,首先使用由全局代码g调制的上采样层生成初始上采样特征Y。接下来,Y按照调制-卷积-解调原则[21]在空间上自适应地与X和g联合调制:

在这里插入图片描述
在这里插入图片描述

如图3的第4列所示,级联的SB块有助于生成细粒度的视觉细节,并改善洞内外特征值的一致性。

在早期阶段扩展感受野。完全卷积模型在有效感受野的增长速度较慢[28],特别是在网络的早期阶段。因此,基于步幅卷积的编码器通常在洞区域内生成无效特征,使得在解码阶段进行特征校正更加具有挑战性。最近的一项研究[44]显示,快速傅里叶卷积(FFC)[8]可以帮助早期层实现覆盖整个图像的大感受野。然而,该研究[44]将FFC堆叠在瓶颈层,计算成本较高。

此外,与许多其他作品[55]一样,由于浅层瓶颈结构,[44]无法有效捕捉全局语义,限制了其处理大洞的能力。我们提出用FFC替换CNN编码器的每个卷积块。通过在所有尺度级别上采用FFC,我们使编码器能够在早期阶段传播特征,从而解决在洞内生成无效特征的问题,改善了结果,如表2的消融研究中所示。

在这里插入图片描述

在这里插入图片描述

Object-aware Training

生成用于训练的遮罩的算法非常关键。本质上,采样的遮罩应与在真实使用情况下绘制的遮罩类似。此外,遮罩应避免覆盖整个对象或大部分新对象,以防止模型生成类似对象的模式。先前的研究使用方形遮罩[37,18]、随机笔划[27]或两者的混合[55,59]来进行训练。

过于简化的遮罩方案可能会导致随意伪影,例如可疑对象或颜色斑块。

为了更好地支持现实的对象移除使用情况,同时防止模型尝试在洞内合成新对象,我们提出了一种对象感知的训练方案,在训练过程中生成更真实的遮罩,如图4所示。

具体来说,我们首先将训练图像传递给PanopticFCN [26]以生成高精度的实例级别分割注释。接下来,我们采样一组自由形状的洞[59]和对象洞作为初始遮罩。最后,我们计算洞与图像中每个实例的重叠比例。如果重叠比例大于阈值,我们将排除前景实例,即不将其包含在洞中。否则,保持洞不变以模拟对象完成。我们将阈值设置为0.5。我们随机地扩张和平移对象遮罩,以避免过拟合。我们还扩张实例分割边界上的洞,以避免将洞附近的背景像素泄漏到修复区域。

在这里插入图片描述

Training Objective and Masked-R1 Regularization

我们的模型使用对抗性损失[59]和基于分割的感知损失[44]的组合进行训练。实验表明,当仅使用对抗性损失时,我们的方法也可以取得良好的结果,但添加感知损失可以进一步提高性能。此外,我们提出了一种适用于修复任务的遮罩-R1正则化,用于稳定对抗性训练。与[59,44]简单应用R1正则化[29]不同,我们利用遮罩m来避免在遮罩外部计算梯度惩罚,具体地说:

在这里插入图片描述

Experiments

实现细节:我们在Places2数据集[62]上进行图像修复实验,分辨率为512×512。我们的模型使用Adam优化器[23]进行训练。

学习率和批量大小分别设置为0.001和32。我们的网络接收调整大小后的图像作为输入,以便模型能够预测图像的全局结构。我们应用翻转增强来增加训练样本。

评估指标:我们在Places2验证集上报告数值指标,该验证集包含36.5k张图像。对于数值评估,我们计算Frchet Inception Distance (FID) [14]和Perceptual Image Patch Similarity Distance (LPIPS) [58]。

我们还采用Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS) [59]进行评估。

Comparisons to Existing Methods

我们将网络的通道数设置得与CoModGAN和LaMa的模型容量相似,如表4所示。

定量评估。表1对比了我们的方法与许多最近的方法在我们的遮罩下的结果。结果表明,我们的方法在FID、LPIPS、U-IDS和P-IDS等方面显著优于所有其他方法。我们注意到,在感知损失的帮助下,LaMa [44]和我们的CM-GAN在LPIPS得分方面明显优于CoModGAN和其他方法,这归因于预训练感知模型提供的额外语义指导。与LaMa相比,我们的CM-GAN将FID从3.864降低到1.628,降幅超过50%,这可以解释为LaMa通常产生模糊的结果,而我们的结果更加清晰。

我们对CM-GAN在其他类型的遮罩上进行了泛化性能评估,包括[44]的wide mask和CoModGAN的mask。我们还使用[44]和[59]的mask对CM-GAN进行了微调(用CM-GAN=表示)并报告了结果。如表3所示,无论是否微调,我们的模型都取得了明显的性能提升,并展示了其泛化能力。值得注意的是,我们在我们的对象感知遮罩上训练的CM-GAN在CoModGAN的mask上优于CoModGAN,验证了CM-GAN更好的生成能力。CM-GAN的强大能力在微调后带来了进一步的性能提升。

定性评估。图5、图6和图19分别展示了我们的方法与最先进的方法在我们合成的遮罩和[44]和[59]引入的其他类型的遮罩上的视觉比较结果。ProFill [57]生成不连贯的全局结构,如平滑的建筑物,并倾向于将颜色渗入背景,适用于对象去除情况。CoModGAN [59]产生结构性伪影和颜色斑块。LaMa [44]在重复结构上表现较好,但在大洞上生成模糊结果,特别是在自然场景上。相比之下,我们的方法在各种情景下生成更连贯的语义结构,并产生更干净的纹理。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Ablation Study

我们进行了一系列消融实验,以展示我们模型的每个组成部分的重要性。所有消融模型均在Places2数据集上进行训练和评估。

消融实验的结果如表2所示。以下是我们从以下几个方面进行的消融:Masked-R1正则化。我们从一个基准模型开始,该模型基于全局向量调制[59]和跳跃连接的编码器-解码器结构。我们将基准模型与使用Masked-R1正则化的模型进行比较(baseline+mR1)。从结果中可以看出,Masked-R1正则化提高了数值度量,因为设计的损失避免了在固定输入区域计算梯度。

级联调制。接下来,我们在基准网络和mR1损失的基础上评估级联调制设计。具体来说,我们评估一个只使用空间调制而不使用全局代码调制的基准模型,即baseline + s。性能改进验证了空间调整引入的有效性。接下来,我们将全局调制和空间调制级联在基准模型上得到主要的CM模型baseline+CM (g-s) ours,这进一步提高了所有的数值指标。为了更好地理解CM,我们在图7中对比了baseline与baseline+CM (g-s) ours的可视化结果,并发现CM显著改善了合成的颜色、纹理和全局语义,并纠正了颜色斑点伪影[59],这确认了CM在全局语义感知模式下纠正不连贯特征的有效性。

第二阶段调制选择。我们评估了第二阶段调制选择的其他变体:i)我们将我们的适用于StyleGAN2的空间调制替换为跳跃连接,得到一个级联两次全局调制的模型,即baseline+CM(g-g);ii)我们测试了CM基准模型与[22]的空间调制,即baseline+CM(g-[22]);iii)我们去除了空间调制步骤(公式(3)),得到一个只有普通空间调制操作的模型,即Baseline + CM (g-s) plain。从结果来看,我们的空间调制优于全局调制版本,因为我们使用了全局和空间代码调制特征。我们发现[22]对CM没有改进作用,因为[22]的实例归一化是为StyleGAN设计的,与我们的基准不太兼容。此外,去模调制似乎对模型至关重要,因为它对中间特征激活进行了正则化。最后,由于与[22]的相同原因,我们发现SPADE [35]不适用于我们的基准,因为其使用了批归一化。

感知损失。感知损失(perc.)为网络提供了额外的语义监督,并可以显著提高FID度量。然而,它稍微降低了区分性U/P-IDS分数,因为感知损失可能会导致对人类来说不可察觉的某些视觉模式。

快速傅立叶卷积编码器。快速傅立叶卷积(FFC)编码器进一步在级联调制和感知损失上带来了显著的性能提升,如表中所示,这验证了在早期编码阶段拥有更宽的感受野的更有效的编码器的重要性。

对象感知训练。为了研究对象感知训练(OT)的效果,我们在我们的对象感知遮罩上重新训练了LaMa [44]和CoModGAN [59]。结果显示,对象感知训练显著改善了这两个模型的性能。

然而,我们的完整模型仍然显著优于这些经过重新训练的模型。值得注意的是,我们的模型将经过重新训练的CoModGAN(OT)的FID从2.599降低了40%,从2.599降低到1.628。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

User Study

我们进行了用户调查,以更好地评估我们方法的视觉质量。具体来说,我们使用Places2评估集和三种类型的遮罩生成用于评估的样本:我们的对象感知遮罩、宽遮罩[44]和来自真实用户请求的遮罩。前一数据类包含30个样本,而后者包含13个来自在线用户的真实修复请求,遵循[56]的方法。我们将包含要去除区域的输入图像以及不同方法的结果呈现给在线用户,然后要求用户选择最佳结果。最后,我们收集所有用户的投票。表5中的结果显示,在合成数据和实际对象修复请求上,我们的方法获得了大多数用户的投票。

在这里插入图片描述

Conclusion

在本文中,我们提出了一种针对实际图像修复的新方法。我们的方法基于一种新的调制块,将全局调制与空间调制串联起来,以更好地将全局上下文传递到缺失区域。我们进一步提出了一种基于对象感知遮罩采样的训练方案,以改进对实际用例的泛化能力。最后,我们提出了专门设计的带遮罩的R1正则化方法,以稳定图像修复网络的对抗性训练。我们的方法在Places2数据集上实现了新的最先进性能,拥有更好的视觉质量。

目前,我们的模型在合成大型对象(如人或动物)方面仍存在一定限制。一种可能的解决方案是为特定类型的对象训练专门的修复模型。另一个方向是利用深度信息和语义分割技术,实现更精确的结构感知修复。

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/789659
推荐阅读
相关标签
  

闽ICP备14008679号