赞
踩
本文是学习整理用作自用,数据效果图部分源自B站up主小白,感谢技术分享,视频做的非常好,大家可以关注一下。
SD生成图像的过程,是生成一张随机的噪点图,通过不同的采样方法,逐步去除图像中的噪点,这个过程我们称为采样,而不同的采样方法,我们把它称为采样器。
采样的过程一般十几次或二十几次,每一步都在原本杂乱的基础上,生成进一步的清晰图像,经过若干次的去噪修正,我们最终得到想要的图片。
我们输入的提示文本后首先进行分词(token),接下来为了使提示词变成计算机能够处理的形式,我们进行嵌入(Embedding) 操作,这是我们的文字语言,就转换为了一串连续的向量。这串向量,我们需要对其进行语义上的分析,探寻其彼此的关联性,这个过程采用了Transformer的技术,称为文字压缩嵌套(Text Transformer)。最后,我们将这组数据作为输入,放入采样器进行噪声预测,不同语义的提示词将负责自己那部分工作,最后逐步地生成图像。
而不同的采样器,可以理解成北京到上海的旅程。虽然大家出行方式不同,但总归都能到达目的地。对于采样结果,不同的采样器之间有一个重要参数——采样步数。
采样步数,就是采样过程的次数。总体上讲,采样步数越多,生成的图像就越细腻,而与此同时,我们运算的次数以及耗费的时间就要长一些。这时候,我们的敏感性就发挥了,可见这个步数太高不好,太低也不好,那么就要寻求一个适中的值,大部分采样器的采样步数居于15~30步之间。
按照时间划分,采样器大概可以分为这三个阶段:
一般年代久远,有一些祖先采样器,还有同SD一同推出的一些采样器。
一般是2022年左右发布的,以DPM为基础的改良版采样器。
带a的是祖先采样器变体,一般表示随机变量的引入,即在每一步去噪完成后重新引入随机新噪声,以此使图像多变。
DPM++系列,是对DPM的升级版本。
DPM2比DPM更加准确,但速度慢了一倍。
带SDE的,表示在DPM过程中添加了SDE这种随机算法,每一步扩散都引入随机噪声,采样结果很随机,出图不收敛,富有多种变化。
带3M的采样器,是1.6版本后推出的升级版本,通常在30步之后才会有不错的效果。
带Karras的,随着采样步数的增加,可以减少误差,使图像细腻,一般效果都不错。
带Exponential的,是在原有的过程中,增加了柔和的效果。
目前最新的采样器。
UniPC 和 Restart:
2023年推出的采样器,以尽可能少的采样步数,获取相对最高的图像质量。在低CFG(提示词相关性)的条件下,5~10步就能得到不错的图像, 20 ~30步便可十分不错。
LCM:清华大学推出的采样器,在极低CFG和采样步数下往往有奇效,需要搭配对于的Lora使用。速度非常快,可以高效率出图。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。