赞
踩
Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)等。
Stable Diffusion 由两部分组成:
文本编码器:提取文本 prompt 的信息
图像生成器:根据文本 embedding 生成图像
**文本编码器:**由一种特殊的 Transformer 编码器组成,例如:OpenAI 的 Clip。
图像信息创建器:由自编码器(通常是 U-Net)和噪音机制组成。
图像解码器:由自编码器的解码器组成。
Stable Diffusion Pipeline:
扩散过程发生在图像信息创建器中。该过程**一步步(step by step)**进行。初始的输入为文本 embedding 和一个随机的图像信息数组(也称为潜变量 latents)。每一步扩散的输入是潜变量,输出是信息进一步丰富的潜变量。最终的输出是一张图像。如图:
扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制(schedule)的噪音等级预测器。
扩散过程包含如下阶段:
生成图像的结果依赖于训练数据集。例如:Stable Diffusion 采用了带有艺术效果的 LAION Aesthetics 数据集,因此生成图像也具有艺术效果。
Stable Diffusion 的扩散过程是在潜空间中开展的,而不是整个图像像素,这样的压缩过程加速了图像生成的速度。
该压缩过程通过**自编码器(autoencoder)**实现。自编码器的编码器把图像压缩至潜空间,并用解码器根据压缩信息重建图像。因此,在前向扩散过程中,等级噪音应用于潜变量,而不是图像像素。所以 U-Net(噪音预测器)预测的噪音也是以潜变量的形式表示的。
前向扩散过程就是给清晰图像不断添加噪音的过程,也是生成数据集训练噪音预测器的过程,当噪音预测器训练完毕后,就可以运行反向抽样过程来去噪并重建图像。
在 Stable Diffusion、LDM(潜变量扩散模型) 的论文中,该流程如下:
Transformer 模型根据文本输入生成 token embedding。
Stable Diffusion 的开源模型中使用的是 OpenAI 的 CLIP(基于 GPT),而其论文中使用的是 Google 的 BERT。两者都是 Transformer 的编码器(encoder)。
有工作指出:文本编码器的选择对于扩散模型的表现比图像生成器的选择更重要。
CLIP 的训练流程为:
有了文本编码器后就要给扩散模型加入文本数据。
下面是有、无文本的扩散过程对比:
加入文本数据后,噪音预测器(U-Net)也要发生相应变化,主要是在每个 ResNet 块后添加注意力运算:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。