【diffusers极速入门（三）】生成的图像尺寸与 UNet 和 VAE 之间的关系

作者：Guff_9hys | 2024-06-21 10:58:17

踩

先上结论，一句话总结即： SD 图片的输入\输出尺寸（高或宽） = Unet 输入\输出的样本尺寸（高或宽） x VAE 的缩放尺寸

在使用生成模型时，特别是图像生成任务中，理解 UNet 和 VAE（变分自编码器）之间的关系是非常重要的。本文将详细介绍 UNet 和 VAE 的工作原理，并解释它们如何协同工作来生成高质量的图像。我们将以 diffusers 库为例，展示生成图像尺寸与 UNet 和 VAE 之间的关系。

UNet 是一种卷积神经网络架构，最初设计用于生物医学图像分割。其结构类似于一个对称的 U 字形，由编码器（下采样）和解码器（上采样）组成。编码器逐步提取图像特征并缩小空间维度，解码器则将这些特征还原到原始的空间维度，同时逐步增加分辨率。

UNet 的关键特性：

VAE 变分自编码器是一种生成模型，通过学习输入数据的潜在表示来生成新数据。VAE 由编码器和解码器组成：

VAE 的关键特性：

在图像生成任务中，输入图像的尺寸需要匹配 UNet 和 VAE 的预期输入输出尺寸。diffusers 库中的 MimicBrushPipeline 通过以下代码设置默认的图像尺寸：

height = height or self.unet.config.sample_size * self.vae_scale_factor
width = width or self.unet.config.sample_size * self.vae_scale_factor
1
2

下面详细解释为什么使用这种方式来设置默认的图像尺寸。

UNet 的输入尺寸要求：UNet 处理图像时，输入图像的最小尺寸需要符合其配置要求。self.unet.config.sample_size 提供了这个最小尺寸的基准值，例如 64。
VAE 的缩放需求：VAE 在编码和解码过程中会对图像进行缩放处理。为了确保图像在经过多次缩放后仍能被 VAE 正确处理，需要考虑 self.vae_scale_factor，例如 8。

通过相乘，我们得到一个符合两者需求的图像尺寸：

height = 64 * 8 = 512
width = 64 * 8 = 512
1
2

这意味着默认的输入图像尺寸将是 512x512。这样的设置确保了图像在经过 VAE 的缩放处理后，仍能满足 UNet 的最小输入尺寸要求，且两者在处理过程中尺寸是对齐的。