AI绘画干货分享！stable diffusion原理解读通俗易懂，史诗级万字爆肝长文！

作者：小舞很执着 | 2024-08-16 12:03:54

踩

stable diffusion

一、前言

hello，大家好我是 Tian-Feng，今天介绍一些stable diffusion的原理，内容通俗易懂，因为我平时也玩Ai绘画嘛，所以就像写一篇文章说明它的原理，这篇文章写了真滴挺久的，如果对你有用的话，希望点个赞，谢谢。

stable diffusion作为Stability-AI开源图像生成模型，其出现也是不逊于ChatGPT，其发展势头丝毫不差于midjourney，加上其众多插件的加持，其上线也是无线拔高，当然，手法上也稍微比midjourney复杂点。

至于为什么开源，创始人：我这么做的原因是，我认为这是共同叙事（shared narrative）的一部分，有人需要公开展示发生了什么。再次强调，这应该默认就是开源的。因为价值不存在于任何专有模型或数据中，我们将构建可审计（auditable）的开源模型，即使其中包含有许可数据。话不多说，开整。

二、stable diffusion

对于上面原论文的图片可能小伙伴理解有困难，但是不打紧，我会把上面图片分成一个个单独的模块进行解读，最后组合在一起，相信你们一定可以理解图片每一步干了什么事。

首先，我会画一个简化模型图对标原图，以方便理解。让我们从训练阶段开始，可能你们发现少了VAEdecoder，这是因为我们训练过程是在潜空间完成，decoder我们放在第二阶段采样阶段说，我们所使用的stablediffusion webui画图通常是在采样阶段，至于训练阶段，目前我们大多数普通人是根本完成不了的，它所需要训练时间应该可以用GPUyear来计量，（单V100的GPU要一年时间），如果你有100张卡，应该可以一个月完成。至于ChatGPT光电费上千万美金，上万GPU集群，感觉现在AI拼的就是算力。又扯远了，come back。

1.clip

我们先从提示词开始吧，我们输入一段提示词a black and white striped cat（一条黑白条纹的猫），clip会把文本对应一个词表，每个单词标点符号都有相对应的一个数字，我们把每个单词叫做一个token，之前stablediffusion输入有限制只能75个单词（现在没了），也就是75个token，看上面你可能发现6个单词怎么对应8个token，这是因为还包含了起始token和结束token，每个数字又对应这一个768维的向量，你可以看作每个单词的身份证，而且意思非常相近的单词对应的768维向量也基本一致。经过clip我们得到了一个（8,768）的对应图像的文本向量。

stable diffusion所使用的是openAi的clip的预训练模型，就是别人训练好的拿来用就行，那clip是怎么训练出来的呢？他是怎么把图片和文字信息对应呢？（下面扩展可看可跳过，不影响理解，只需要知道它是用来把提示词转成对应生成图像的文本向量即可）。

CLIP需要的数据为图像及其标题，数据集中大约包含4亿张图像及描述。应该是直接爬虫得来，图像信息直接作为标签，训练过程如下：

CLIP 是图像编码器和文本编码器的组合，使用两个编码器对数据分别进行编码。然后使用余弦距离比较结果嵌入，刚开始训练时，即使文本描述与图像是相匹配的，它们之间的相似性肯定也是很低的。

随着模型的不断更新，在后续阶段，编码器对图像和文本编码得到的嵌入会逐渐相似。在整个数据集中重复该过程，并使用大batch size的编码器，最终能够生成一个嵌入向量，其中狗的图像和句子「一条狗的图片」之间是相似的。

给一些提示文本，然后每种提示算相似度，找到概率最高的即可。

查阅、整理和输出教程属实不易，觉得这篇教程对你有所帮助的话，可以点击

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/988167

推荐阅读

相关标签