赞
踩
当你自本地的SD WebUI搭建完毕之后,接下来就需要出图了吗?
NO,NO,NO,接下来我们要一起给大家介绍一下SD WebUI的界面,让大家知道每个部分是做什么的。
img
img
模型组一共有三个:
sd_model_checkpoint:
为安装时就默认有的选项,是文生图所需要的大模型的选取菜单,方便在生成图像时切换不同的模型;
VAE(Variational autoencoder):
中文名叫“变分自编码器”,简单可以理解为是一种画面饱和度的滤镜与画面微调功能。有些大模型是需要用到VAE来调整的,有些则不需要;
Clip skip(Clip跳过层):
指的是控制图像生成过程中CLIP模型的使用层数。 可通过滑块取值从1-12。由于 CLIP是通过计算文本和图像之间的相关性来实现的,因此如果跳过太多的步骤,文本对生成图像的匹配准确度会逐渐降低。一般我们默认都是用1或2;
模型组的内容其实和SD内部机理有关,我们后续也会编写对应的章节,让大家对于他们有一个更加直观的感受,具体可以参考:SD 内部机器学习机制探究 (目前待更新)
这一部分就是存放一些默认菜单以及自己安装的插件。
img
该区域罗列出了Stable Diffusion WebUI 软件里的若干主功能项,以标签方式展现;
默认打开软件后显示为第一项——tex2img(文生图),文生图也是我们用到的最多最主要的功能;
其他还有img2img(图生图)、Extras(附加功能)、PNG info(图片信息)、Checkpoint Merger模型合并、Train训练、Settings(设置)、Extensions(扩展);
后续我们增加的一些插件也会在这里进行配置以及演示;
这一部分主要是对应的正、负向提示词;
img
这里包含的内容:
该区域就是专门填写正向提示词的输入区域;
专门输入反向提示词的区域;
无论是在txt2img(文生图)还是在img2img(图生图)、Extras(附加功能)、PNG info(图片信息)等其他功能标签里,点击此Generate(生成)按钮就意味着让AI开始作图了。
点击后,该按钮会切换为interrupt(终止)和skip(跳过)两个小按钮,可以让你终止或跳过AI生图的进程。
右键点击此Generate(生成)按钮,会出现Generate forever的选项,这个会让AI一直生成下去,直到你停止它为止,这对于大批量生成图片后进行筛选有一定帮助。
img
img
从左到右依次是:
比如,我们去c站上找到了自己喜欢的模型,进行复制:
img
img
垃圾桶图标的按钮,清空正向与反向提示词输入框中的所有内容,但是不会将参数设置区域内的参数复位;点击之后显示:
img
注意,他只会清空提示词,参数设置中的参数是不会复位的,比如在上面我们复制过来选择的采样器是DPM++ 2M Karras
,清空之后还是没有改变:
img
点击后显示 LoRA、Embedding、LyCORIS 等模型,方便选取。再点击一次该图标,取消显示;后续教程中说明这个一部分是做什么的。它的功能很重要;
img
是一个读取按styles的按钮。点击后,它将下方 styles(提示词预设加载)区里选择好的styles 内的所有文本展开并填入正向或反向提示词区域用的;
比如我们在预设样式中选择**起手式,**然后点击按钮,就会将其styles内的文本进行填充:
img
添加之后,会自动填充到正向、负向提示词中;
img
img
通过之前读取按钮和存储按钮的介绍我们可以了解到, styles区域实际上是对一系列“提示词”的集合存储,通常用一个简单的名字来命名这个集合,方便日后索引和调用。通过这个便利功能,日后就不用每次在提示词输入框里,再手动地输入很多标准套路的参数类的提示词了。
这个styles在Stable diffusion webui的本地文件夹下,通常是在styles.csv这个表格文件里存储。你可以手动在表里增删改“提示词”内容;
styles.csv 文件里是可以区分正向和反向提示词的。大家可以用Excel打开这个文件看看。
比如,我们将常见的起手式的负面提示词,整个到这个文件中:
找到对应的文件:
img
打开文件,增加一个负面通用提示词:
暂时无法在飞书文档外展示此内容
第一列是名称,第二列是正向提示词,第三列是负向提示词;
img
刷新之后,就可以正常使用了:
img
img
这个步数就是在进行生成图片的时候,需要绘制多少步。一定程度上确实是步数越多越好。但是迭代步数需要和采样方法一起配合起来使用效果会比较好。
当然受限于每个人的电脑配置不同,一般情况下:20-25步比较正常;如果电脑配置高一点可以设置为25-30步就差不多了;
一下是通过默认的采样器和负面提示词,通过a boy
一个正向提示词在20、25、30、35、40 生成的图片对比:
img
其实20步能够感觉出来效果并不太好;
目前这个版本罗列了20种采样方法,对于采样方法Sampling method ,我们需要了解一些内容。首先,Stable Diffusion 中的所有采样器都是出Stability AI 公司的首席研究员@RiversHaveWings ( Katherine Crowson) 之手。不同的采样方法都有比较学术的解释;、
例如:Euler a采样器使用了祖先采样(Ancestral sampling)的Euler方法,有Karras后缀的采样器都是基于Karras论文中提到的运用了相关Karras的noise schedule的方法等等。这些采样器背后都有十分生涩难懂的学术原理。我们需要了解的是哪种采样器适合哪类图形哪种艺术风格,以及他们各自的优缺点。
采样方法 | 适合构图 | 迭代步数 |
---|---|---|
Euler a | 通用的采样方法,但会偏向于适合插画类图像,环境光效质感较弱,对于Prompt提示词的利用率仅次与DPM2和DPM2 a,有时会产生异想天开的构图效果 | <20步就会产生不错的图 |
Euler | 适合插画类图像,画面整体较柔和,环境细节与渲染好,背景则模糊较深远 | <20步就会产生不错的图 |
Heun | 出图平均质量比Euler和Euler a高 | >25步采样步数较高的设置下出图表现较好,因而出图速度较慢; |
DDIM | 最老的原始采样方式,适合宽幅画面,环境光线与水汽效果好,写实质感不佳,在负面提示词不充分情况下,往往发挥很随意;以细腻的画风见长 | >25步采样步数较高的设置下出图表现较好,因而出图速度较慢; |
DPM2 | 该采样方法对Prompt提示词的利用率可达80%以上,所以,如果你是Prompt比较熟练,期望用Prompt控制画面上的更多细节,可以多采用这个方法; | >20步 |
DPM2 a | 几乎与DPM2相同,对人物特写有一定帮助; | >20步 |
PLMS | SD的老资格原始采样方式,单次出图质量仅次于Heun | >25步采样步数较高的设置下出图表现较好 |
LMS | 饱和度与对比度偏低,比较适合动画的风格; | >20步 |
LMS Karras | 很适合油画风格,所以写实类不佳; | >20步 |
DPM fast | 是早起开发者的一种测试方法,不适合设计师出图 | |
DPM++ 2M | 和Euler a 一样,比较通用 | 在低采样步数(低于 20)时就可以产生优质的画面 |
不推荐:
LMS、DPM fast、LMS Karras和 PLMS 这四个,它们的生成质量在大多数情况下相较于其它算法而言不佳;
新手推荐:
有 Euler a(更细腻),和 DDIM(适合局部重绘)。Euler a 富有创造力,不同步数可以产出不同的图片。调太高步数 (>30) 效果不会更好。DDIM 收敛快,但效率相对较低,因为需要很多 step 才能获得好的结果,适合在局部重绘时候使用。
随机抽卡推荐:
img
在512 * 512 的小尺寸标准画且无强烈细节要求的简单画面中,使用 Euler A / DDIM 等推荐迭代步数载 30 到 40 之间,而使用 DPM2 A 等需要高步数的算法时则推荐迭代步数翻倍。而使用 DPM Solver 系列则推荐 20 到 30 。
img
由于目前AI生图领域对人的脸部和手部仍然无法做到很好的控制,经常导致脸崩和手崩的情况发生。现实世界中,人类对脸部的微妙细节和变化十分敏感。除了哭、笑等大幅度的表情特征外,神经网络尚无法完全捕到如此细腻的变化,导致Ai生成的人脸不自然或扭曲的结果……所以,需要让AI专门针对脸部进行二次再生成,即修复。但是此功能对脸部占画面比例较小的图来说,基本无效。
比如如下:
img
这个功能一般不会用到,但是个别设计领域会有用,比如需要做到四方连续的花纹图案时,这个功能勾选后会产生可以无限连续拼图的花纹图案。我们的窗帘花纹即使如此。
下图是相同的提示词,不增加和增加之后产生的图片效果:
img
当点击高清修复之后,会出现如下界面:
img
我们有时需要1024以上的大图,此时就需要对图像进行二次生成式放大了。
国外有一个热心的播主总结了300多种放大算法的优劣,生成了对比图:https://phhofm.github.io/upscale/introduction.html
关于对应不同的放大算法和图片对比,大家可以参考:
img
Hires steps 高分迭代步数 采样次数越高,修复的细节越多,但耗费的资源与时间也越多。
Denoising strength 重绘幅度 重绘幅度高代表对原始素材进行二次修复时的变动幅度。数值越大,AI的创意就越多,同时也会使生成的图像越偏离原始图像。
Upscale by 放大倍率 直接按照二维尺寸的倍率进行调节。
Resize width to 将宽度调整到 Resize height to 将高度调整到 宽度和高度直接调整到具体的像素值。
这一部分主要是对于出图的设置部分:
img
设置你要生成出的图像的长宽像素数值(建议512_512或512_768);
每点一次生成按钮生成批次的数量,即生成几批次图片,比如设置为4,就相当于重复了4次生成(可以理解为单线程做4次);
每批次生成图片的数量,比如设置为4,就相当于一张4倍幅面的大图里分4个区域生成4张小图(可以理解为4个线程同时做);
如果要生成多个图时,Batch count(总批次数)与Batch size(单批数量)这两者建议选前者。前者耗时比后者少一些。显卡性能好的,可以选后者,否则生成进程会因显卡吃不消而崩溃终止。
CFG Scale 提示词相关性是经常会用到的概念,它代表着要生成出的图像与你输入的“提示词”之间的语义关联程度。数值越大关联程度越高。对于512的小图片CFG数值超过10可能会导致过度拟合而产生图片崩坏问题。所以一般建议设置在5-9之间。大图片推荐10左右。
Seed种子概念也是经常用到的。如果你已经生成出一张接近满意的图片时,还需要生成更多类似这样构图及构图元素的图片,只是需要细节上有一些变化,以增加更多选择时,就可以用到Seed的这个概念。把之前那张接近满意的图片的Seed值拷贝到这里,则让AI继续生成类似的图片。如果不希望延续,则设为-1,即不使用Seed(点击骰子 ️按钮即可设置为-1,点击绿色环保小按钮♻️则从当前图生成区域刚刚生成的图片中提取Seed值到此)。
随机种子(seed)的用途就是固定生成图片过程中所产生的随机数,从而在下次生成图片时最大限度地进行还原。当然即使我们使用了随机种子也不能做到100%地还原,最多算是一种参考。因为随机种子虽然固定了随机数,但是AI算法本身就有随机性,就算使用了随机种子还是会因为随机性带来生成图片的偏差,所以随机种子只能最大限度的降低随机性。
img
附加功能区是插件的聚集地之一。在这里有一个SD中最著名的插件,也是我们以后使用频率最多的功能——ControlNet。
ControlNet可以让我们很好地对Stable Diffusion进行精准控制,尤其是人物的姿态,场景的深度等等。可以说,是ControlNet让SD进入到了CG的专业应用领域。
此处,还有许多其他著名的插件,比如Adetailer、FaceEditor、Composable LoRA 等等 。
另外还有一个是脚本,Script脚本中有若干过往用户开发的功能脚本,有些被固化在了默认安装中。可以到 SD-WebUI 的官方github上去下载额外的脚本(https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Custom-Scripts)。后续我们继续可以增加脚本来让大家感受一下他的具体用法;
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
若有侵权,请联系删除
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。