当前位置:   article > 正文

字节提出ControlNet++:更强更可控的图像生成框架!通过高效的一致性反馈改进条件控制!

controlnet++

你有多久没更新你的ControlNet了?字节带着ControlNet++来了!ControlNet++是一种改进的 ControlNet 模型,通过显式优化生成图像和条件控制之间的像素级循环一致性来改进可控生成。

目前提供了如下模型:Lineart、Depth、Segmentation、SoftEdge(Hed)、Canny。

(a)在相同的输入图像条件和文本提示下

(b)提取的ControlNet++生成的图像条件与输入更一致

相关链接

主页:https://liming-ai.github.io/ControlNet_Plus_Plus

论文:https://arxiv.org/abs/2404.0798

Demo:https://huggingface.co/spaces/limingcv/ControlNet-Plus-Plus

论文阅读

ControlNet++: 用有效的一致性反馈改进条件控制

摘要

为了增强文本对图像扩散模型的可控性,现有的方法有如ControlNet Incorporated基于图像的条件来进行控制。 在本文中,我们揭示了现有方法在生成与图像条件控件保持一致的图像时仍面临重大挑战。为此,我们提出了ControlNet ++,这是一种新颖的方法,可以通过明确优化生成的图像和条件控制之间的像素级循环一致性来改善可控生成。

具体而言,对于输入条件控制,我们使用预先训练的判别奖励模型来提取生成的图像的相应条件,然后优化输入条件控制和提取条件之间的一致性损失。直接的实现将是从随机噪声中生成图像,然后计算一致性损失,但是这种方法需要存储多个采样时间段的梯度,从而导致大量时间和内存成本。

为了解决这个问题,我们引入了一种有效的奖励策略,该策略通过添加噪声来故意打扰输入图像,然后使用单步切换图像进行奖励进行微调。这避免了与图像采样相关的大量成本,从而可以进行更有效的奖励微调。广泛的实验表明,ControlNet++在各种条件控制下显着提高了可控性。 例如,对于分割掩码,线路边缘和深度条件,它分别将控制网的改进分别提高了7.9%MIOU,13.4%的SSIM和7.6%的RMSE。

条件生成中的周期一致性

与现有的方法比较

(a)现有方法在潜在空间去噪损失的指导下,在扩散模型去噪过程中引入基于图像的条件控制,实现隐式可控性。

(b)我们利用判别奖励模型通过像素级周期一致性损失来明确优化G的可控性。

有效奖励策略

(a)默认奖励微调策略管道。奖励微调需要一直采样到完整的图像。这种方法需要保持每个时间步的所有梯度,并且所需的内存是当前gpu无法承受的。

(b)我们的有效奖赏策略正在筹备中。我们在输入图像中加入小的噪声来干扰输入图像与条件之间的一致性,然后将去噪后的单步图像直接用于有效的奖励微调。

比其他方法具有更好的可控性

更好的可控性而不牺牲图像质量

我们在不牺牲图像质量(FID)的情况下实现了显著的可控性改进。

为了进一步验证我们在可控性方面的改进及其影响,我们使用生成的图像以及真实的人类注释标签来创建一个新的数据集,用于从头开始训练判别模型。在我们的图像上训练的分割模型在很大程度上优于基线结果(ControlNet)。请注意,这种改进在分割任务中是显著的。

更多可视化结果

结论

在本文中,我们从定量和定性的角度证明了专注于可控生成的现有作品仍然无法实现精确的条件控制,导致生成图像之间的不一致和输入条件。

为了解决此问题,我们介绍了ControlNet ++,它明确优化了输入条件和生成图像之间的一致性 以周期一致性方式使用预训练的判别奖励模型, 这与通过潜在扩散降解的隐式实现可控性的现有方法不同。

我们还提出了一个新颖有效的奖励,通过在输入图像中添加噪声,然后单步降解,从而避免了重要的计算和与随机高斯噪声采样相关的记忆成本。多条件控制下的实验结果表明,ControlNet ++在不损害图像质量的情况下显着提高了可控性 对可控生成领域的新见解。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号