赞
踩
AnimeGANv3出自论文"A Novel Double-Tail Generative Adversarial Network for Fast Photo Animation.", 它是继AnimeGAN之后又一力作。文中称AnimeGANv3的模型名为DTGAN。其源码和论文手稿已开原在GitHub。论文的出版会在2024年1月1日,由日本的 『 IEICE Transactions on Information and Systems 』期刊发表。AnimeGANv3的研究工作历时2年,论文投稿和接收历时1年半。该算法研究的核心任务就是将现实世界的图片转换为宫崎骏、新海诚风格的卡通图像。相比之前的研究工作,这次提出了很多的改进方法。
如上图所示,绿色和蓝色的长方体代表由卷积层、LADE层和LReLU激活层组成的卷积模块。 EA是外部注意力模块,VGG19表示预训练过的VGG19网络。 DTGAN主要由两个鉴别器和一个具有两个输出尾的生成器组成。 值得注意的是,在生成器中,两个输出尾部的结构是相同的。 支持尾部有两个输出Gs0(p)和Gs1(p)、Gs0(p)为非平滑图像,Gs1(p)为平滑图像。 由于非参数可微引导滤波器可以在保留图像中全局语义结构的同时进行边缘保持滤波,因此我们使用引导滤波器对平滑Gs0(p)进行处理,得到Gs1(p)。
虽然Gs0(p)和Gs1(p)具有相同的动漫风格,但它们都没有令人满意的视觉质量。 文中提出了细粒度的修复模块,用于细粒度的去噪和去除Gs0(p)上的视觉伪影。 使用细粒度修复模块输出的高质量动画风格图像作为ground truth,生成器主尾的任务主要是构建从输入图像到ground truth的映射。 在DTGAN中,支持尾的目的是生成初步的动画风格化图像并进行修改,然后将修改后的图像作为主尾的辅助标签,辅助主尾的学习过程;主尾的目的是在支持尾的帮助下生成最终的动画风格化图像。 主尾基本上用于对支持尾的结果进行最终修改。 这样,就实现了一种端到端动画风格化的图像生成方法。 DTGAN本质上只有主尾,而支撑尾只是主尾在训练中使用的一个附件。 训练后,可丢弃支持尾。 在推理阶段,DTGAN只包含主尾。 因此,用于推理的网络参数的数量非常少,可以直接部署在移动设备上。
如上图直观地显示,由主尾生成的Gm (p)在保持清晰边缘的同时具有高质量的动画风格。
论文中包含的损失函数众多,损失函数公式也很多。具体的可参考论文中列出的公式和说明。其中生成器主尾和支持尾的损失作为生成器的总损失由一个Adam优化器优化。另外,两个结构相同的判别器计算的总损失由另一个Adam优化器优化。具体的实现可参考官方源码。两个判别器分别对生成器的两个尾的输出结果作监督判别。
如下所示,该图展现了DTGAN(AnimeGANv3)的整体网络结构。
LADE结构图
LADE的结构如上所示,输入特征x首先按通道维度执行减均值与除以方差的操作。同时对输入x执行点卷积并计算卷积后特征每个通道的均值 β和方差γ。再然后将归一化的特征按通道乘以γ和加β,最后得到LADE的标准化输出结果。
如上图所示,AnimeGANv3与现有相关研究工作的一些定性对比。可以发现AdaIN方法生成的图像具有非常抽象的风格,丢失很多输入图像的内容且颜色发生了巨大变化。CartoonGAN也有像AdaIN类似的生成效果。AnimeGAN相比前两者能够保持更多的输入内容,且颜色受动画风格数据的影响更小,但生产的图像容易出现明显的伪影。AnimeGANv2具有非常显著的(绿色)颜色偏好,可能是其主要使用layer norm造成的,而且其风格化效果还不如AnimeGAN。white-box生成的卡通效果在颜色和纹理上更加偏向动画作品,具有更大的平滑和相对较少的线条边缘。具有更多的抽象风格,相比最后的AnimeGANv3来说,其颜色的保持仍相对逊色,动画纹理风格均各有特色。AnimeGANv3应该更偏向于宫崎骏的的动画纹理风格。
定量的对比结果如上图所示。论文主要使用FID和KID两种常用的生成模型的评估指标来评价模型生成性能。可以看到DTGAN具有最佳的动漫生成效果,同时也可也看出,AnimeGANv2的生成图像保留了更多的输入内容。在运行速率上,DTGAN的运行速率最快,其参数数量最小。参数量在102万,是ChatGPT4参数量的百万分之一。
如上图所示,LADE生成的结果的视觉质量明显优于其他方法。 由BN和LN产生的图像有大量的裂纹。 IN和GN生成的图像存在明显的视觉伪影。 这证明了BN、LN、IN和GN并不能很好地解决动漫风格的转移问题。 综上所述,与其他4种常用的归一化方法相比,该方法具有较好的动画风格化性能。
定量对比如上表所示,可以看出,各个标准化方法在参数数量上的差异较小,在fid和kid的指标上,AnimeGANv3都取得了最佳的性能。
如上图所示,(a)使用RGB彩色动画图像作为输入,表示灰度样式损失(这种损失也称为颜色样式损失),(b)表示没有细粒度修正损失函数的DTGAN,(c)表示没有区域平滑损失函数的DTGAN,(d)表示使用YUV颜色空间的颜色重建损失。所提出的损失函数和改进的损失函数具有明显的优势。 与(a)相比,我们的方法可以利用灰度动画图像作为真实样本,避免动画数据的干扰,保留输入照片的真实颜色。 与(b)相比,包括每像素损失和感知损失在内的细粒度再视觉损失函数能够帮助DTGAN避免生成图像中的视觉伪影。 与(c)相比,区域平滑损失可以帮助DTGAN削弱高频风格纹理细节,使生成的图像具有更多的图像和平滑效果。 与生成模糊结果的(d)相比,我们的方法可以利用基于实验室颜色空间的颜色重建损失来生成更清晰的动画图像。 实验表明,所提出的损失功能和改进的损失函数对网络性能有显著影响,有效地提高了生成图像的视觉质量。
定量对比如上表所示,我们的方法在FID到照片分布和KID到照片分布上都得分最低。 同时,我们的方法在FID动画图像分布和KID动画图像分布上都取得了最低的分数。 总的来说,所提出的损失函数可以有效地帮助我们的模型产生更高质量的动漫图像。
AnimeGANv3的开源模型可以在其GitHub的Releases模块下载获取。如果使用onnx模型推理,可以直接下载AnimeGANv3官方的GUI界面工具批量推理图片。该GUI工具可从其GitHub的release模块AnimeGANv3_gui.exe获取。打开其exe后弹出的可视化界面如下所示:
以下是AnimeGANv3对实际现实照片的推理结果。
在宫崎骏和新海诚两种动漫风格应用于景观图像之外,作者还进行了针对人像的卡通化风格开发和研究。这些风格包括Kpop,Sketch,USA,Arcane,Cute,Disney,Comic和Nordic myth等。全部的人像风格生成结果请从此链接下载查看,未来还将会持续更新。
当前,基于Stable Diffusion的图像生成模型大展风采,完全有碾压和替代GAN生成图像的势头。但Stable Diffusion模型的体量过大,难以在边缘端高效部署和运行。因此,作者也将结合Stable Diffusion的强大生成效果,打造基于AnimeGANv3的各种轻量级人像生成模型,这些模型根据规模可分为tiny,light,large等不同大小,模型容量分别约在2.4MB,4.5Mb和5.6MB左右,比较适合边缘端部署。AnimeGANv3_gui.exe的release部分,作者也分享了几个初步的人像风格模型如tiny_Cute.
以下列举一部分AnimeGANv3的人像风格生成示例。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。