当前位置:   article > 正文

Stable Diffusion - 超分辨率插件 StableSR v2 (768x768) 配置与使用_v2-1_768-ema-pruned

v2-1_768-ema-pruned

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/131582734

Stable Diffusion

论文:Exploiting Diffusion Prior for Real-World Image Super-Resolution

StableSR 算法提出了一种新颖的方法,利用预训练的文本到图像扩散模型中封装的先验知识,来实现盲超分辨率(SR)。具体来说,通过使用时间感知编码器,可以在不改变预训练的合成模型的情况下,实现令人满意的恢复结果,从而保留了生成先验并最小化了训练成本。为了弥补扩散模型固有的随机性造成的保真度损失,引入了一个可控的特征包裹模块,允许用户在推理过程中通过简单地调整一个标量值来平衡质量和保真度。此外,开发了一种渐进式聚合采样策略,以克服预训练扩散模型的固定尺寸限制,使其能够适应任何尺寸的分辨率。使用合成和真实世界的基准数据集对我们的方法进行了全面的评估,结果表明它优于当前最先进的方法。

工程:sd-webui-stablesr

网站:https://github.com/pkuliyi2015/sd-webui-stablesr/blob/master/README_CN.md

插件依赖 Tiled Diffusion 和 Tiled VAE。

启动命令:

cd stable-diffusion-webui
conda deactivate
source venv/bin/activate
nohup python -u launch.py --port 9301 --xformers --theme dark > nohup.sd.out &
tail -f nohup.sd.out
  • 1
  • 2
  • 3
  • 4
  • 5

1. 模型和插件

下载参考:https://github.com/pkuliyi2015/sd-webui-stablesr/blob/master/README_CN.md

下载 StableSR 模型的v2版本,即768版本,准备使用,建议提前下载 (下载时间大约 40 min):

  • v2-1_768-ema-pruned.ckpt (5.21G): https://huggingface.co/stabilityai/stable-diffusion-2-1/blob/main/v2-1_768-ema-pruned.ckpt
  • webui_768v_139.ckpt (422M): https://huggingface.co/Iceclear/StableSR/blob/main/webui_768v_139.ckpt
  • vqgan_cfw_00011_vae_only.ckpt (746M): https://drive.google.com/file/d/1ARtDMia3_CbwNsGxxGcZ5UP75W4PeIEI/view

需要安装 2 个扩展插件工程:

  • sd-webui-stablesr: https://ghproxy.com/https://github.com/pkuliyi2015/sd-webui-stablesr.git
  • multidiffusion-upscaler-for-automatic1111: https://ghproxy.com/https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git

在 GitHub 工程链接之前,加入前缀 https://ghproxy.com/ ,即可快速安装,例如:

https://ghproxy.com/https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git 
  • 1

使用百度云盘下载模型至服务器:

pip install bypy
bypy info
bypy --help
bypy downdir /stable_diffusion/stable_sr/ stable_sr/
  • 1
  • 2
  • 3
  • 4

复制模型至工程目录:

  • Stable Diffusion 模型,v2-1_768-ema-pruned.ckptstable-diffusion-webui/models/Stable-diffusion
  • VAE 模型,vqgan_cfw_00011_vae_only.ckptstable-diffusion-webui/models/VAE
  • StableSR 模型,webui_768v_139.ckptstable-diffusion-webui/extensions/sd-webui-stablesr/models

模型与插件安装完成之后,重新启动即可,即:

Extensions

2. 参数配置

选择合适的参数配置,出图效果较好。

2.1 配置模型与提示词

修改 Stable Diffusion 模型外挂 VAE 模型 为已准备的模型:

  • Stable Diffusion 模型v2-1_768-ema-pruned.ckpt
  • 外挂 VAE 模型vqgan_cfw_00011_vae_only.ckpt

即:

Model

同时,采样方法使用 Eular a,即可,其余不需修改。

注意:不需勾选 面部修复重绘幅度 使用默认 0.7重回尺寸倍数 也不需修改,默认1倍,其实以 StableSR 脚本为准,脚本设置 2 倍,即缩放 2 倍。

根据官方指引,添加 负向提示词,效果更好,即

3d, cartoon, anime, sketches, (worst quality:2), (low quality:2)
  • 1

2.2 配置 StableSR

点击 图生图 选项,在最下面的脚本中,选择 StableSR,配置参数:

  1. 选择 SR Modelwebui_768v_139.ckpt
  2. Color Fix:选择 Wavelet
  3. 勾选 Pure Noise
  4. 注意:StableSR 的放大倍数,需要与 Tiled Diffusion 的放大倍数保持一致。

即:

StableSR

2.3 配置 Tiled Diffusion 和 Tiled VAE

Tiled DIffusionTiled VAE 都是用于减轻内存消耗,否则显存溢出,无法运行。

  • 参考官网配置:https://github.com/pkuliyi2015/sd-webui-stablesr/blob/master/README_CN.md

Tiled DIffusion:根据官方最新说明,v2版本 (768x768),不需要修改数值,使用默认的 96x96 即可,速度可明显加快。

  • 启用 Tiled DIffusion
  • 修改方案:Mixture of Diffusers
  • 注意:StableSR 的放大倍数,需要与 Tiled Diffusion 的放大倍数保持一致。
  • 其他,如噪声反转分区提示词控制,均使用默认。

即:

Tiled DIffusion

Tiled VAE:启用 Tiled VAE,其余保持默认。

即:

Tiled VAE

3. 图像效果

运行日志,如下:

[StableSR] Target image size: 2048x3072
[Tiled Diffusion] StableSR found, support is enabled.
MixtureOfDiffusers Sampling: : 0it [00:00, ?it/s]Mixture of Diffusers hooked into 'Euler a' sampler, Tile size: 96x96, Tile batches: 9, Batch size: 4.
[Tiled VAE]: the input size is tiny and unnecessary to tile.
MixtureOfDiffusers Sampling: : 0it [00:02, ?it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 30/30 [00:57<00:00,  1.93s/it]
[Tiled VAE]: input_size: torch.Size([1, 4, 384, 256]), tile_size: 256, padding: 11██| 30/30 [00:57<00:00,  1.90s/it]
[Tiled VAE]: split to 2x1 = 2 tiles. Optimal tile size 256x192, original tile size 256x256
[Tiled VAE]: Fast mode enabled, estimating group norm parameters on 170 x 256 image
[Tiled VAE]: Executing Decoder Task Queue: 100%|█████████████████████████████████| 246/246 [00:01<00:00, 205.38it/s]
[Tiled VAE]: Done in 2.509s, max VRAM alloc 10456.432 MB
Total progress: 100%|███████████████████████████████████████████████████████████████| 30/30 [01:07<00:00,  2.26s/it]
Total progress: 100%|███████████████████████████████████████████████████████████████| 30/30 [01:07<00:00,  1.90s/it]
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

出图效果的差距,非常明显,经过 StableSR 处理的图像,明显细节丰富。使用 Imgsli,如图所示:

v1

眼睛、皮肤、嘴唇等细节差异,也非常明显。右侧是StableSR的图,左侧是原图:

v2

其他

Imgsli 图像对比

图像对比的网站 imgsli,链接:https://imgsli.com/MTg5MzAx/0/1,用于对比图像差异。

Bugfix

Bug1: 遇到 Bug “/tmp/gradio/ 已满,无法缓存文件,导致 图库浏览器 功能无法使用”

原因是:服务器的 /tmp 空间较小,导致 gradio 无法缓存,替换为新的 /tmp 空间,即可。

launch.py 中,添加如下代码:

import tempfile
print(f"[Info] old tempfile: {tempfile.gettempdir()}")
tempfile.tempdir = "tmp/"
print(f"[Info] new tempfile: {tempfile.gettempdir()}")
  • 1
  • 2
  • 3
  • 4

输出日志:

[Info] old tempfile: /tmp
[Info] new tempfile: /data/tmp/
  • 1
  • 2

Bug2: 遇到 RuntimeError: output with shape [320, 320] doesn't match the broadcast shape [320, 320, 320, 320]

原因:提示词中出现部分 LoRA 无法兼容,删除即可。

参考

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/259813
推荐阅读
相关标签
  

闽ICP备14008679号