赞
踩
近来,AI绘画软件市场上涌现出两款备受瞩目的产品:Midjourney(简称MJ)和Stable-Diffusion(简称SD)。MJ需要付费使用,而SD则以开源免费的姿态呈现,尽管上手难度略高,学习成本相对较大,且对电脑配置(显卡、内存)要求较高。
与Midjourney相比,Stable Diffusion最大的优势在于其开源特性。这意味着SD拥有巨大的潜力,并且其发展速度迅猛。SD已吸引了大量活跃用户,开发者社群积极贡献了大量免费高质量的外接预训练模型(fine-tune)和插件,并持续进行维护更新。在第三方插件和模型的支持下,SD拥有比Midjourney更为丰富的个性化功能。经过使用者的调教,SD能生成更贴近需求的图片,甚至在AI视频特效、AI音乐生成等领域都有一定的应用空间。
Stable Diffusion是一种潜在扩散模型(Latent Diffusion Model),能够根据文本描述生成详细的图像。其应用领域涵盖图像修复、图像绘制、文本到图像以及图像到图像等多个任务。简而言之,只需提供所需图片的文字描述,Stable Diffusion即可生成符合要求的逼真图像!
这样的开源免费工具为艺术创作者和技术爱好者带来了全新的选择,为其提供了更多自由度和创作空间。它的快速发展和社群支持也为用户提供了更多可能性,激发了创造力,进一步推动了AI技术在艺术创作领域的发展。
是使用 Stable Diffusion 的核心要点,其中显卡、内存、硬盘和CPU是至关重要的元素。在这些要素中,显卡的选择尤为关键。首选N卡(英伟达Nvida独立显卡),其效率远超集显、AMD或Intel显卡,推荐起步使用至少10系列,而40系列则提供更佳的体验感。显存方面,4G是最低要求,6G是合格标准,当然,显存越大越好,没有上限;至于内存,最低8G,16G更为理想,也没有上限;硬盘方面,500G以上的可用空间最佳,固态硬盘则是最优选择。
在系统要求方面,支持 Win10/Win11/macOS(仅限Apple Silicon,Intel版 Mac 无法调用 Radeon 显卡)和 Linux 系统。值得注意的是,苹果版 Stable Diffusion 兼容插件数量较少,功能性不及 Windows 和 Linux 系统。
如果身边没有合适的电脑,可以考虑购买云主机,比如腾讯GPU云服务器。无法使用独立显卡和云服务的情况下,可以修改启动配置,使用CPU渲染。虽然兼容性较强,但出图速度较慢,需要16G以上内存。
这些电脑配置和系统要求为使用 Stable Diffusion 提供了指导。正确的配置能够提高软件的性能和稳定性,同时也为用户带来更好的使用体验和创作环境。
与AMD或英特尔的任何产品相比,Nvidia的GPU提供了卓越的性能–有时是以巨大的优势。随着Torch的DLL修复到位,RTX 4090的性能比带有xformers的RTX 3090 Ti高出50%,而没有xformers的性能则高出43%。生成每张图片只需要三秒多。
Stable Diffusion的开源地址位于GitHub上,是一个Python项目,目前大家普遍采用的是Stable Diffusion Web UI。与常规软件安装方法有所不同,它不是一个可直接下载安装的软件,而需要准备执行环境、编译源码,并针对不同操作系统和电脑硬件做一些手工调整。因此,使用者需要具备一定的程序开发经验,但也可以现学习。一些专家已经撰写了详细的安装教程,比如(链接)。
对于像我一样不太熟悉安装过程的小白用户,现在也可以直接使用一键启动程序包,例如由国内的@秋葉aaaki开发的整合包。这些工具大大降低了安装的门槛,极大地简化了安装过程。我强烈推荐使用这些工具,尤其对于初学者或者没有安装经验的用户来说,它们提供了更加友好和便捷的安装方式。
SD开源地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki
一键启动包只是将安装过程封装为了可视化的一键界面,对出图效果不产生影响,主要是为了降低本地部署的门槛,让用户更轻松地完成安装。
对于Nvidia显卡用户,使用Stable Diffusion前,请务必登录Nvidia官网(https://www.nvidia.cn/geforce/drivers/)下载并安装对应显卡的最新版驱动程序。同时,也需要下载并安装对应显卡支持的最新版CUDA驱动,可以在(链接)处获取。
启动Stable Diffusion的方法很简单:进入SD安装文件夹,双击webui-user.bat。稍等片刻,待其加载完成后,即可在浏览器(推荐使用Chrome或Edge)中登录默认的加载IP地址http://127.0.0.1:7860/,开始使用Stable Diffusion进行创作。这个过程相对直观且简便,让用户可以迅速进入软件界面,开始体验和使用功能。
如果需要将界面汉化,可以按照以下步骤下载中文语言包扩展:
方法1:通过WebUI拓展进行安装
在了解界面的基础上,需要指出Stable Diffusion目前并不存在通用的使用规范。由于每个人的电脑配置和需求不同,使用cpkd/Safetensors大模型、VAE、embedding、lora等AI模型、各类插件、提示词以及输出参数的组合都会影响软件的运作。因此,需要用户具备足够的耐心,查阅插件开发者的说明文档,以及从诸如https://civitai.com/等分享网站获取的使用心得。
用户可以首先在civitai上搜索到中意的图例,复用原作者的出图提示词、参数和模型,然后根据自身需求进行修改。这样的学习方式最为直观,也有利于更好地掌握软件的使用方法。
文生成图:根据文本提示生成图像。
图生成图:根据提供的图像作为范本,并结合文本提示生成图像。
更多功能:优化图像(提升清晰度、扩展内容)。
图片信息:显示图像的基本信息,包括提示词和模型信息(除非信息被隐藏)。
模型合并:将已有模型按不同比例进行合并,生成新的模型。
训练功能:根据提供的图片进行模型训练,使其具有特定的图像风格。
描述语分为正向和负向描述,它们也可以被称作标签或提示词。
正向描述:相较于Midjourney,需要更为精准和详细的描述,描述越少,让AI拥有更多的发挥空间。
负向描述:指不希望Stable Diffusion生成的内容。
正向描述的例子包括:masterpiece, best quality, 更多画质词,画面描述(杰作、最佳画质、更多画面细节描述等。)
负向描述的例子包括:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,(不适宜18岁以下观看(NSFW)、低分辨率、人体结构不佳、手部不准确、文字、错误、缺失手指、额外数字、缩小画面、最差画质、低画质、普通画质、JPEG伪影、签名、水印、用户名、模糊等。)
这些描述词语能够指导Stable Diffusion在产出图像时所考虑的方向,同时也提供了一些避免出现的内容或特征,确保生成的图像符合用户的期望和需求。
生成下面的5个小图标(从左到右依次分别是)
在采样步数方面:
稳定扩散是从充满噪音的画布开始创建图像,逐渐去噪以达到最终输出。采样步数控制这些去噪步骤的数量。通常情况下,步数越多越好,但默认值通常为25个步骤。以下是一般指南:
如果正在测试新的提示,希望快速获得结果以调整输入,可使用10-15个步骤。
当找到喜欢的提示时,请增加步数至25。
对于有毛发或纹理主题,图像缺乏细节时,可以尝试将步数增加到40。
这些步骤编号的指南可以帮助根据不同情况选择适当的步骤数,以获得所需的效果和图像质量。
这些功能选项是在生成图像过程中的不同修复和改进选项:
放大算法:有不同的算法可供选择,例如Latent、ESRGAN_4x、SwinR 4x等,用于放大图像。
放大倍数:通常为2倍即可。
重绘幅度:决定算法对图像内容的保留程度。较高的值意味着放大后的图像与原图之间的差异较大。一般阈值在0.7左右,超过这个值,放大后的图像与原图基本无关。具体的执行步骤为重绘强度乘以重绘步数。
在生成图像过程中,有一些重要的参数需要考虑:
长宽尺寸(分辨率): 分辨率并非越大越好,推荐范围在512至768像素之间。例如,正方形图通常是512512和768768,人像肖像是512x768,风景画是768×512,可以按比例加大或减小。这个值必须是8的倍数。选择适当的尺寸可避免主题对象出现重复。如果需要更高分辨率的图片,建议先使用SD模型生成图片,然后再使用合适的模型进行放大处理(upscale)。
生成批次和每批数量:生成批次表示每次生成图像的组数,而每批数量指同时生成的图像个数。增加每批数量可以提高性能,但需要更多的显存。通常每批数量保持为1,除非是高级显卡。
提示词相关性CFG: 这个参数影响生成结果与提示匹配的程度。较高的值将提高生成结果与提示的匹配度。建议在5以上使用,但通常推荐在7左右,提供了创造性和生成所需物品之间的平衡。不同的CFG量表适合不同的提示类型和目标,但超过20的数值几乎无法使用。
随机种子(Seed): 生成每张图片时的随机种子,用于确定扩散的初始状态。如果不了解,可以使用随机的种子。
在编写提示词时,可以参考优秀的风格模板作为起点,并利用描述语工具和网站。初期多生成图像,多研究,掌握生成规律,慢慢就能自己写出详细的提示词。生成图像的过程就像抽卡,生成一堆图像后挑选出符合个人审美范畴的。
找tag关键词网站:
可参考Civitai | Stable Diffusion models, embeddings, hypernetworks and more中优秀作品的提示词作为模板。
其他网站还有:
ChatGPT:https://chat.openai.com/
AI Creator:https://ai-creator.net/arts
NovelAI:https://spell.novelai.dev
这些网站是一个很好的格式选择,它有助于构建出更清晰、更详细的提示,让模型更好地理解用户的期望。这里有一些对这个格式的微调建议:
第一段:
画质tag:清晰、高清、柔和、细腻
画风tag:写实、卡通、油画、水彩
第二段:
画面主体:明确描述图像的核心,可以是人物、场景、物品等。
主体强调:突出强调主体的特征、情感或特殊性。
主体细节概括:简要概括主体的关键细节,不需太过繁琐,但要确保包含重要信息。
第三段:
-画面场景细节或人物细节:描述场景或人物的细节,或者是画面中其他重要细节。
-Embedding tag:在描述时融入embedding tag,帮助模型更好地理解期望的内容。
-画面细节内容:详细描述画面中重要的细节,如光影、色彩、纹理等。
第二段补充:
人数、人物主要特征、主要动作:提供场景中人物的数量、关键特征以及他们的主要动作。
-物体主要特征、主景或景色框架:描述其他物体或环境的关键特征,包括主景或场景的基本框架。
这种结构会让提示更系统化、详细化,使模型更好地理解用户想要的图像内容。
举个例子
(具体场景还是要灵活应用,多尝试,找到合适自己的节奏和风格)
正向提示词:closeup half-side view, cybera (yvikojaro hoitsusbe:1.1), indefencinegmata pose,
perfect drawn emigmatic face, perfect drawn hands,
art by (avroniif:1.2),
global lighting and background by (dpivibiiecgi:1.4),
award wining photo, absurdres, 4k
反向提示词:bad proportions, bad drawing face, low quality, medium quality, bad drawn hands, low emotions, low face expression,
这些提示是非常有帮助的,涵盖了许多影响生成结果的关键因素。这些观点对于优化提示词以及理解Stable-diffusion的工作原理非常重要。
(word) - 将权重提高 1.1 倍
((word)) - 将权重提高 1.21 倍(= 1.1 * 1.1)
[word] - 将权重降低至原先的 90.91%
(word:1.5) - 将权重提高 1.5 倍
(word:0.25) - 将权重减少为原先的 25%
请注意,权重值最好不要超过 1.5
这些技巧和注意事项能够在生成图像时发挥重要作用,帮助用户更好地引导模型生成符合预期的图像内容。
主流模型下载网站:
Hugging face是一个专注于构建、训练和部署先进开源机器学习模型的网站:https://huggingface.co/
Civitai是一个专为Stable Diffusion AI艺术模型设计的网站,是非常好的AI模型库:https://civitai.com/
选择合适的模型确实是生成所需风格图像的关键。对于选择模型和其相关组件(如Lora),有一些要点需要考虑:
大模型(Checkpoints): 这些模型是体积较大的,根据不同的训练数据形成不同风格的模型。选择与你期望的画风相符的大模型是关键,因为它们是生成图像的核心引擎。
大模型决定了AI绘画的整体方向。
搭配组件:VAE、Emb、Lora。
下载和配置:
下载适合你需求的大模型并将其放置于SD文件夹的/models/Stable-diffusion内。这些模型将为你提供生成所需风格图像的基础。
总的来说,选择适合你所需风格的大模型,并结合适当的组件,可以提供更具针对性的生成效果。记得在使用这些模型前备份数据,因为不同的模型可能产生不同的效果,需要多次尝试和调整才能获得满意的结果。
作为特征模型,是针对特定角色、风格或动作训练的模型,其确定性要比embedding强。结合Lora与大模型可以提供更好的人物、姿势和物体表现。
- 在WebUI界面的“Additional Networks”下启用Lora,选择模型,并通过权重调整其影响。权重越高,Lora的影响也越大。然而,不建议将权重设定得过高(超过1.2),否则可能导致结果扭曲。
多个Lora模型的混合使用能产生叠加效果。例如,一个控制面部特征,另一个控制画风,可以生成具有特定画风的特定人物。你可以结合多个专注于不同方面优化的Lora,调整权重,以达到你想要的效果。
LoHA和LoCon模型是Lora模型的改进版本,它们在特定方面或泛化能力上有所优化。
下载你需要的Lora模型,并将其放置于SD文件夹的/models/Lora内。这样,你就可以在Stable Diffusion中轻松访问并应用这些模型了。
通过合理地应用Lora模型,你可以更好地控制图像生成的特定方面,提高模型的针对性和效果。记得在尝试不同模型和权重时,不断调整和测试以获得最佳结果。
VAE模型类似于滤镜,可以用于对画面进行颜色调整和微调。它通常需要与其他模型结合使用,对于灰暗或色彩不够鲜艳的图片,加载VAE可能有所改善。
下载的VAE模型可以放置在SD文件夹的/models/VAE内,这样就可以在Stable Diffusion中方便地使用这些模型了。
文本反推模型(embedding)是针对关键词进行预设的模型。这些关键词可以打包在一起,代表特定的对象或风格。你也可以下载Textual Inversion模型进行使用。
下载的embedding模型可以放置在SD文件夹的/embeddings内,以便Stable Diffusion使用。
这些模型和工具都是用于提供更丰富的功能和更精准的图像生成。结合不同的模型,可以更灵活地调整和优化图像生成的效果,让你更好地掌控生成图像的细节和特性。记得在使用新模型时,不断尝试并调整参数,以获取你期望的最佳效果。
ControlNet是Stable Diffusion的一个扩展,由斯坦福大学的研究人员开发。它的功能是使创作者能够更轻松地控制AI图像和视频中的对象。通过边缘检测、草图处理或人体姿势等条件,它可以控制图像生成的各个方面。ControlNet可以被看作是一种对稳定扩散微调的简化方法。
ControlNet的工作原理涉及将可训练的网络模块附加到稳定扩散模型的U-Net(噪声预测器)的各个部分。Stable Diffusion模型的权重是固定的,在训练过程中它们不会改变。而在训练期间,只有附加模块会被修改。
安装ControlNet扩展相对简单。你可以从GitHub上找到对应的网址,将其填入扩展界面里进行安装。安装完成后,别忘了点击“Apply and restart UI”来使设置生效。(https://github.com/Mikubill/sd-webui-controlnet)
ControlNet的引入为稳定扩散的应用范围带来了新的可能性,使得用户能够更精确地控制图像生成的特定方面。
ControlNet的使用步骤相对简单,主要包括以下几个步骤:
将ControlNet模型文件(.pt、.pth、.ckpt或.safetensors)放入Stable Diffusion中的/models/ControlNet文件夹中。
-打开“txt2img”或“img2img”选项卡,在相应的区域中撰写您的提示或上传您的图像。
在界面中找到“刷新模型”选项,并选择您要使用的ControlNet模型。如果模型列表没有显示,请尝试重新加载或重新启动webui。
上传您的图像,并选择适当的预处理器来完成操作。您可以根据您的需求选择“完整型号”或“修剪型号”。
对于预训练模型,您可以访问以下链接获取更多信息:预训练模型
这些步骤将帮助您在Stable Diffusion中使用ControlNet模型,以便更好地控制图像生成的特定方面。
界面介绍
这些选项提供了ControlNet的一些功能设置和调整,让您更好地控制图像生成过程。让我为您梳理一下:
选中此框以启用ControlNet,确保您可以使用ControlNet模型。
- 如果您的显存小于8 GB VRAM,选中此框可以减缓处理速度,但有助于使用更少的计算空间。特别适用于显存较小的设备。
- 当选中此模式时,ControlNet会自动识别图像,无需额外的提示和负面提示。它会强制ControlNet编码器根据输入控制图(如深度、边缘等)进行编码,即使没有提示也是如此。使用此模式时,建议将步数设置得更高,例如50,但效果可能因情况而异。
这些选项可以根据您的需求和实际情况进行调整,以便更好地适应您的图像处理要求。
这些参数用于控制ControlNet模型在生成图片时的应用方式。让我简要说明一下:
这个参数代表ControlNet在生成图片时所应用的权重比例。如果设置为1,ControlNet将会以全权介入图像的生成。较低的权重值则会减弱ControlNet的影响。
2.引导介入时机(Guidance Start):
这个参数决定了ControlNet何时开始介入生成过程。默认情况下设置为0,即生成过程开始时就会使用ControlNet。如果设置为0.5,则ControlNet将在完成50%的生成步骤后开始介入。
和引导介入时机相对应,该参数决定了ControlNet何时结束介入。默认设置为1,表示在完成100%的生成步骤后结束介入。如果将其设置为0.8,则ControlNet将在完成80%的生成步骤后结束介入。
这些参数可以调整ControlNet在整个生成过程中的参与程度和时间点,使其在需要的时候介入并在合适的时候退出,以产生更符合预期的图像结果。
这些调整大小模式为您提供了对ControlNet图像和上传图像尺寸的控制选项:
- 不考虑原始图像的纵横比例,将ControlNet图像调整至与Txt2Img设置的宽度和高度匹配。可能会拉伸或压缩图像来适应指定的尺寸。
调整ControlNet图像的大小,使其适应Txt2Image的尺寸。它会调整图像的大小,直到能够适应Txt2Image设置的宽度和高度。
调整Txt2Image的大小,使其适应ControlNet图像的尺寸。它会调整Txt2Image设置的大小,直到可以容纳ControlNet图像。
这两个选项允许您手动创建绘图或草图,而不上传任何图像。它会调整空白画布的大小来进行绘制,不会影响上传的原始图像。使用这些选项可以在没有上传图像的情况下设置画布的大小以进行绘图。
这些功能是用于预览和隐藏ControlNet图像处理结果的:
-这个选项允许您快速查看所选的预处理器如何将上传的图像或绘图转换为ControlNet的检测图。
-它有助于在渲染最终输出图像之前,尝试各种预处理器,帮助您选择最适合的预处理方式,节省时间和资源。
- 如果您想要隐藏预览图像,这个选项可以删除或隐藏预览图像,以便更清晰地查看或进行其他操作。
预处理器和模型是ControlNet的主要选项。
预处理器
在ControlNet中,预处理器负责对输入图像进行处理以生成控制图。控制图是ControlNet中的关键,用于指导生成图像的特定方面。
预处理器的作用包括:
边缘检测:突出图像中的边缘和轮廓。
深度检测:分析图像的深度和距离信息。
法线贴图:生成图像中物体表面法线的贴图。
选择适当的预处理器取决于您希望控制和影响生成图像的特定方面。例如,如果您希望以边缘为基础生成图像,可以选择边缘检测器。
模型
模型则是ControlNet的另一个组成部分,它们与预处理器协同工作以生成最终的图像。ControlNet模型可以视为控制生成图像的引擎。选择的模型将直接影响最终生成图像的风格、特征和细节。
重要的是,预处理器和模型应该匹配并相互配合,以便获得期望的输出效果。过多的混合可能会导致负面效果,因此最佳做法是选择匹配的模型和预处理器,并避免过多地混合使用。
综合来说,选择适合您需求的预处理器和模型,以达到所期望的图像效果。
预处理器
下面我们介绍几个常用的 ControlNet,并在下面举例说明如何使用它。
1、Canny边缘检测
Canny预处理器运用边缘检测器来勾勒输入图像中高对比度区域的轮廓。它能够捕捉细致的线条和轮廓,但当图像背景中存在多余物体时,可能会误检测这些物体。因此,如果背景中物体较少,其效果会更佳。1
2、Depth & Depth Leres
这预处理器对生成图像的深度评估非常有帮助。深度评估常用于控制图像中物体的空间位置。较浅的区域代表离观察者更近的物体,而较深的区域则代表距离更远。
但在处理大型图像时,它可能会丢失图像内部的一些细节,例如面部表情等。通常与control_sd15_depth模型搭配使用。Midas Resolution函数用于调整detectmap中的大小和细节级别,更高级别会占用更多的VRAM,但能生成更高质量的图像,反之亦然。
Depth Leres基于与Depth相似的概念,但它包含更广泛的范围。然而,有时可能会捕获到过多信息,导致生成的图像与原始图像略有不同。因此,最好先尝试两种预处理器,然后再确定使用哪种。
3、HED (Holistically-Nested Edge Detection)
这个预处理器可以在物体周围产生清晰而细致的边界,与Canny相似,但它减少了噪声并呈现更柔和的边缘。它的强大之处在于捕捉复杂的轮廓和细节,同时保留了细微的特征,比如面部表情、头发和手指等。
Hed预处理器可以用来修改图像的风格和颜色。
4、MLSD ( Mobile Line Segment Detection)
MLSD Preprocessor 适用于生成清晰且有力的线条,对于需要强调独特和刚性轮廓的建筑和其他人造结构非常有效。然而,它并不适用于处理非刚性或弯曲的物体。MLSD 在突出直线和边缘方面表现出色,因此适合生成室内布局或建筑结构的图像。
5、Normal map
法线图使用红、绿、蓝三种主要颜色,通过不同的角度精确表现物体的粗糙度和光滑度。它基于图像生成法线图的基本估计,保留了相当多的细节,但也可能带来一些意外的效果,因为法线图完全基于图像,而不是在3D建模软件中构建的。
法线图有助于突出复杂的细节和轮廓,对于定位对象也很有效,尤其是在接近度和距离方面。通过“Normal Background Threshold”可以调整背景的呈现,设置更高的阈值可以去除背景的远处部分(将其混合成紫色)。降低阈值则会要求AI保留甚至显示额外的背景元素。
6、OpenPose
这个预处理器生成了一个基本的骨架火柴人形象。这种技术被广泛采用,因为多个 OpenPose 骨架可以组合成一个图像,有助于引导稳定扩散生成多个一致的主题。骨架图包含多个关节点,每个节点代表人体的特定部位,如头部、手臂、躯干等。
7、Scribble
涂鸦的目的是通过简单的黑白线条和草图生成图像。用户也可以利用“Canvas”选项创建特定大小的空白画布,用于手绘素描(也可直接上传图像)。若草图或绘画是基于白色背景上的黑线条构成,则需要选中“Invert Input Color”复选框。
8、Segmentation
分割预处理器能够检测并将上传的图像分割成同一图像内的不同段落或区域。在生成一组新图像时,该模型将依据 detectmap 图像应用于文本提示。适用于这个预处理器的最佳模型是 control_sd15_seg。
使用Stable Diffusion这款AI绘图工具确实可以提升美术工作者的效率,但要记住,人工智能,若没有人工参与,就难以发挥其智能。Stable Diffusion并不是简单易上手的应用程序,我们需要投入时间和精力去学习和不断调试,才能使其真正服务于我们,高效地输出符合需求的图片。
最后,简要总结一下使用SD的关键技能:
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/821295
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。