当前位置:   article > 正文

Stable Diffusion XL简介_diffusionpipeline.from_pretrained图生图

diffusionpipeline.from_pretrained图生图

Stable Diffusion XL的是一个文生图模型,是原来Stable Diffusion的升级版。相比旧版的Stable Diffusion模型,Stable Diffusion XL主要的不同有三点:

  1. 有一个精化模型(下图的Refiner),通过image-to-image的方式来提高视觉保真度。
  2. 使用了两个text encoder,OpenCLIP ViT-bigG和CLIP ViT-L。
  3. 增加了图片大小和长宽比作为输入条件。

SDXL与以前SD结构的不同如下图:

代码示例

加载基础和精化两个模型,并生成图片:

  1. from diffusers import DiffusionPipeline
  2. import torch
  3. base = DiffusionPipeline.from_pretrained(r"D:\hg_models\stabilityai\stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True).to("cuda")
  4. refiner = DiffusionPipeline.from_pretrained(r"D:\hg_models\stabilityai\stable-diffusion-xl-refiner-1.0", text_encoder_2=base.text_encoder_2, vae=base.vae, torch_dtype=torch.float16, variant="fp16", use_safetensors=True).to("cuda")
  5. n_steps = 40
  6. high_noise_frac = 0.8
  7. prompt = "A girl with purple hair, a yellow headband, and red eyes"
  8. generator = torch.Generator(device='cuda').manual_seed(100)
  9. image = base(
  10. prompt=prompt,
  11. generator=generator,
  12. num_inference_steps=n_steps,
  13. denoising_end=high_noise_frac,
  14. output_type="latent",
  15. ).images
  16. image = refiner(
  17. prompt=prompt,
  18. generator=generator,
  19. num_inference_steps=n_steps,
  20. denoising_start=high_noise_frac,
  21. image=image,
  22. ).images[0]

n_steps定义总步数,high_noise_frac定义基础模型跑的步数所占的比例。SDXL 基础模型在 0-999 的时间步上进行训练,而SDXL 精化模型则在 0-199 的低噪声时间步上根据基本模型进行微调,因此我们在前 800 个时间步(高噪声)上使用基本模型,而在后 200 个时间步(低噪声)上使用精化模型。因此,high_noise_frac 被设为 0.8,这样所有 200-999 步(去噪时间步的前 80%)都由基本模型执行,而 0-199 步(去噪时间步的后 20%)则由细化模型执行。

因为总步数是采样的40步,实际上,base模型跑了32步,refiner跑了8步。

只使用基础模型也是可以出图的。如果只使用基础模型跑全部的40步,则生成的图片如下明显质量降低。

  1. n_steps = 40
  2. high_noise_frac = 0.8
  3. prompt = "A girl with purple hair, a yellow headband, and red eyes"
  4. generator = torch.Generator(device='cuda').manual_seed(100)
  5. image = base(
  6. prompt=prompt,
  7. generator=generator,
  8. num_inference_steps=n_steps,
  9. # denoising_end=high_noise_frac,
  10. # output_type="latent",
  11. ).images[0]
  12. # image = refiner(
  13. # prompt=prompt,
  14. # generator=generator,
  15. # num_inference_steps=n_steps,
  16. # denoising_start=high_noise_frac,
  17. # image=image,
  18. # ).images[0]

如果将original_size设置的比较小(128, 128),则会生成一个模糊的图片,类似把原来(128, 128)的图片放大的效果。

  1. n_steps = 40
  2. prompt = "A girl with purple hair, a yellow headband, and red eyes"
  3. image = base(
  4. prompt=prompt,
  5. generator=torch.Generator(device='cuda').manual_seed(100),
  6. num_inference_steps=n_steps,
  7. original_size=(128, 128),
  8. ).images[0]

如果将crops_coords_top_left设置为(0, 512),则会生成一个偏左的图片,类似把原来图crop截取过。

  1. prompt = "A girl with purple hair, a yellow headband, and red eyes"
  2. image = base(
  3. prompt=prompt,
  4. generator=torch.Generator(device='cuda').manual_seed(100),
  5. num_inference_steps=40,
  6. crops_coords_top_left=(0, 512),
  7. ).images[0]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/233135
推荐阅读
相关标签
  

闽ICP备14008679号