赞
踩
本文将介绍 Stable Diffusion 使用的主要模型及其用法。
Stable Diffusion (简称SD) 模型主要从 Huggingface, github, Civitai 下载。
Huggingface:主要提供主流 AI 绘画模型下载。
github:也有一些小模型放在 github 下供下载使用。
Civitai:AI艺术共享平台,可下载海量SD开源模型(推荐)。
SD 支持不同类型的模型,比如:基础模型,Lora,ControlNet,VAE,CLIP等。模型扩展名一般为ckpt,safetensors,pt,pth等。下面介绍几种最重要的模型。
基础模型一般包含完整的 TextEncoder、U-Net、VAE。
模型大小一般为2-8G,真实风格模型相对2D风格模型更大。
目前最新的模型是 SDXL 1.0(约占8G显存),最常用的模型是 SD 1.5(约占4G显存)。
需要手工下载后,复制到 models/Stable-diffusion/ 目录下,才可识别和使用。
Lora是一种较小的绘画模型,一般体积在几十到几百兆左右。它是对大模型的微调。生成图片时只能选择一个大模型,但可选择多个Lora。
Lora解决的问题是:单个模型难以覆盖不同风格,而基础模型又太大,普通设备无法训练,Lora可分别针对:主体,风格,动作训练增补模型,与基础模型配合使用,以改进具体功能。
Lora只需要少量的数据就可以训练(如几十张标注的相片),比训练大模型要简单很多,用户可以用自己的数据训练Lora,也可在 Civitai 进行下载,下载后放到 SD的 models/Lora/ 目录下即可使用。
VAE是变分自编码器,负责将潜空间的数据转换为正常图像。
在SD中切换 VAE,可看作切换滤镜,它在生成图片过程中配合主模型使用,起到调色和微调的作用,比如有些模型色调不够清晰明亮,可考虑加 VAE 一起使用。
切换模型时,对应的VAE有时会自动下载;手动下载VAE模型,需要复制到 models/VAE/ 目录下,然后在 WebUI 界面上设置:Setting选项卡->左边选 Stable Diffusion->SD VAE
mse-840000:通用 VAE
ClearVAE:动漫 VAE
AI 绘图的主要问题是画面不可控,只能通过多次尝试,再筛选的方式出图,很难达到可预期的稳定输出,ControlNet 主要解决这一问题。其主原理是:利用额外网络对基础模型做微调。
ControlNet可以提取图片的线稿、人的资态、风景等难以用 prompt 描述的元素。在生成图片时叠加各种效果,比如给图A中的人设置图B中的姿式。它包括预处理和叠加模型,预处理是从图片A中提取行为,叠加模型将该行为应用到图片B的生成中。相对于图生图,ControlNet 提供的信息更为纯粹。
具体原理见论文 2023年2月 :https://arxiv.org/abs/2302.05543,
其它模型,比如恢复面部细节的 CodeFormer,利用图片生成提示词的 CLIP & DeepBooru,一般第一次使用时都会自动下载模型到 models 的对应子目录中,需要耐心等待。如果下载不成功,请根据后台提示下载文件,然后复制到对应目录。
SDXL模型b站视频
耗时7天,终于把15种ControlNet模型搞明白了!
Stable Diffusion进阶教程!超详细的 ControlNet 实用入门指南
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。