当前位置:   article > 正文

一文掌握Stable Diffusion提示技巧,秒变AI灵魂画手,让你的图像活起来_anything模型只能生成动漫风格的吗

anything模型只能生成动漫风格的吗

使用Stable Diffusion生成图像时,都需要prompt。Prompt是众多参数中的一个,也是最重要的一个。如果prompt不完整或构建的不好,生成的图片可能会与你所期望的效果不一致。

本文将从影响输出的参数,有效prompt应具备的特征,强调关键词等三大层面,为您展示构建prompt的关键技巧,并可以了解到一个好的prompt能对生成优质图像产生多大影响。

影响输出的参数

在Stable Diffusion中,有一些参数会影响输出结果。模型对绘图风格有极大的影响,采样器和步数对生成的质量很重要,但prompt决定了输出内容。

基础的Stable Diffusion模型适用于多种用途。但有些模型是针对特定风格专门训练的。例如,“Anything”模型能轻松生成日式动漫风格的图片,而“Realistic Vision”模型则能生成逼真的照片效果。可以从Hugging Face Hub或推荐的Civitai下载这些模型:

  • Anything:

https://civitai.com/models/9409https://huggingface.co/stablediffusionapi/anything-v5

  • Realistic Vision:

https://civitai.com/models/4201https://huggingface.co/SG161222/Realistic_Vision_V6.0_B1_noVAE

下载的模型应保存至WebUI安装目录下的models/Stable-diffusion文件夹。下载模型时,除了关注模型自身的版本外,还需留意基础模型版本,常见如SD 1.5和SDXL 1.0。使用不同的基础模型可能导致与Pipeline其它部分的兼容问题,包括对prompt的理解方式。

理论上,扩散模型需要数百步骤才能生成图像。但实际上,扩散模型是一个可以用微分方程表示的数学模型。有一些方法可以近似求解方程,采样器和步数共同控制如何找到近似解。通常来说,步数越多,结果越准确,但步数的影响取决于所选采样器。一般而言,多数采样器应在20至40步之间,以实现质量和速度的最佳平衡。

Prompt是如何影响输出的呢?在每一步中,Stable Diffusion中的U-net会利用prompt指导将噪声细化为图像的过程。在每一步中,Stable Diffusion中的U-net都会使用提示来引导噪声细化成图片。不同模型对prompt的理解各不相同,就像人类对某个词有不同先入为主的观念一样。但普遍原则是,应该以“限制重新解读空间的方式”撰写prompt。让我们通过一些例子来深入探讨这一点。

有效提示应具备的特征

一个有效的prompt应明确、具体地指出图片中需要包含的元素。手边有一个关键词列表会让构建提示变得简单。让我们先理解关键词的不同类别,随后再分别查看各类别中的示例。

Prompt中应包含以下内容:

  • 主体:主要焦点的外观。如果是人物,描述服装、动作和姿势会有很大帮助;
  • 媒介与风格:说明是照片、素描还是水彩画等;
  • 特定艺术家或网站名称:如果您希望以某种特定风格呈现;
  • 分辨率与光照:指明“4K”和“锐利聚焦”将获得更多细节。描述光照也会呈现出不同的效果;
  • 其他细节:可以添加更多描述性特征,如主色调或拍摄角度。

主体或对象

提示的核心在于详尽描述预期图像的细节,因此首要的是先在脑海中构建出画面。让我们通过一个提示示例来理解这一点。

“一位身穿巴塞罗那足球俱乐部球衣的年轻女子,与背景中的足球队员及人群一同庆祝进球。”

生成该图像所选用的各项设置如下:

  • 模型:Realistic Vision V6.0 B1(VAE)
  • 采样方法:DPM++ 2M Keras
  • 采样步数:20
  • CFG比例:7
  • 宽度×高度:512 × 512
  • 负向提示:将在后续章节中解释
  • 批次大小与数量:1

使用prompt在Stable Diffusion中生成图像

第一次尝试还不错

使用简单prompt进行生成

让我们进一步完善。

注:图像生成是一个随机过程,因此你可能会看到截然不同的输出。实际上,除非你固定了随机种子,否则每次使用相同提示和参数生成的图像都会有所不同。

媒介

如何创建图像?添加图像创建的媒介可以使prompt更加具体。无论图像是照片、数字绘画、三维渲染或者油画,这些都被称为媒介。

我们还可以为其添加形容词,如:

  • 超写实照片
  • 肖像数字画
  • 概念艺术
  • 水下油画

让我们在提示中加入一个媒介:

“一个年轻女子穿着FC巴塞罗那球衣,庆祝进球,足球运动员和人群在背景中,这是一幅超现实的摄影作品。”

以下是生成结果。

带有摄影媒介的提示

差别不大,因为默认情况下,所使用的模型假定具有逼真的、类似摄影的输出。如果使用不同的模型,差异会更加明显。

艺术风格

诸如现代主义、印象派、波普艺术、超现实主义、新艺术运动、超写实主义等关键词为图像增添了艺术视角。我们通过修改提示来理解这一点。

“一幅波普艺术风格的超写实肖像画,描绘了一位身穿巴塞罗那足球俱乐部球衣的年轻女子,与背景中的足球运动员和人群一起庆祝进球。”

以下是生成结果:

带有艺术风格的提示生成的图像

受限于保持照片般的模型,但波普艺术风格使得输出更多使用原色(红、黄、蓝),且面部颜色变化更为突兀。

著名艺术家姓名

添加艺术家名字会选取该艺术家的风格。可以提及多位艺术家的名字以组合他们的风格。这里我们加入两位艺术家的名字:超级英雄漫画艺术家Stanley Artgerm Lau和加拿大裔美国抽象画家Agnes Martin。

艺术家名字的参考可在这里找到:https://stablediffusion.fr/artists

“一幅由Stanley Artgerm Lau和Agnes Martin创作的波普艺术超写实肖像画,画中一位身穿巴塞罗那足球俱乐部球衣的年轻女子与背景中的足球运动员和人群一起庆祝进球。”

在prompt中添加艺术家名字

由于提供了多位艺术家的名字,输出可以更具创意性。

网站

诸如Artstation和Deviant Art等网站拥有多种风格的图形内容。添加这些网站名称,能够为生成图像增添其特有的风格。

让我们在提示语中加入“artstation”。

通过在prompt中t网站名称,可能会生成一些抽象背景

分辨率

添加如高细节度、HD、4K、8K、vray、unreal engine或锐焦等分辨率规格,有助于获取图像中更多的细节信息。让我们试一试。

“一幅由Stanley Artgerm Lau和Agnes Martin创作、发布于Artstation的4K超高清、锐聚焦的波普艺术风格超现实主义肖像画,画面中年轻女性身穿FC Barcelona球衣,正与足球运动员及背景中的观众一同庆祝进球。”

指定4K分辨率和锐聚焦,将强调图像纹理细节

你可能已经注意到,提示语并不需要构成完整的句子。你也可以用逗号分隔关键词的形式输入。嵌入引擎能够很好地理解这样的输入。

照明

添加照明关键词可以提升场景的视觉效果。例如:边缘光、电影光效、体积光照、暮光、背光或微光等。因此,您可以将提示语修改为:

“一幅由Stanley Artgerm Lau和Agnes Martin创作、发布于Artstation、4K分辨率、焦点锐利、运用边缘光照的流行艺术超写实风格肖像,画面中一位身穿巴塞罗那足球俱乐部球衣的年轻女子正在与背景中的足球运动员及观众一同庆祝进球。”

提示中包含“边缘光照”,将使轮廓更加鲜明

若您对摄影不熟悉,边缘光照是指在被摄物体后方设置光源,使得物体边缘被光线勾勒出轮廓。

我们还可以借助ControlNets或区域提示器实现更精细的控制。

色彩

通过使用任意颜色关键词,即可调整图像的整体色调。

“一幅由Stanley Artgerm Lau和Agnes Martin创作、发布于Artstation、4K分辨率、焦点锐利、运用边缘光照、以青色为主色调的流行艺术超写实风格肖像,画面中一位身穿巴塞罗那足球俱乐部球衣的年轻女子正在与背景中的足球运动员及观众一同庆祝进球。”

在提示中加入“青色”,会使输出图像中更多地融入这种色彩

好的,现在我们可以看到图像中出现了一些青色。但由于提示语中未明确指出“青色上衣”或“青色染发”,留出了重新诠释的空间,因此青色可能出现在任何位置。

负面提示

负面提示是一种描述图像中不应出现的属性、对象或风格的方式,而非直接描述图像应包含的内容。以下是一个适用于所有图像生成任务的通用负面提示模板:

(最差质量、低质量、正常质量、低分辨率、细节不足、过饱和、欠饱和、曝光过度、曝光不足、灰度、黑白、劣质照片、糟糕摄影、拙劣艺术:1.4),(水印、签名、字体、用户名、错误、徽标、文字、字母、数字、签名、商标、姓名:1.2),(模糊、朦胧、颗粒感),病态、丑陋、不对称、畸变、残缺、光线不佳、阴影糟糕、草稿、裁剪、出框、遮挡、JPEG 压缩失真、焦点模糊、故障、重复、(磨皮、卡通、动漫、半写实、CGI、渲染、Blender、数字艺术、漫画、业余:1.3),(3D、3D 游戏、3D 游戏场景、3D 角色:1.1),(糟糕的手部、不合理的解剖结构、不协调的身体、怪异的脸部、难看的牙齿、糟糕的手臂、糟糕的腿部、畸形:1.3)

至今为止,我们已在生成过程中使用了这一提示。

强调关键词

我们可以告知 Stable Diffusion 对某些关键词给予特别关注并设定其重要程度。可通过以下方法实现:

使用因子

通过使用语法“(关键词: 因子)”来调整关键词的权重。因子为数值形式。现在,让我们在示例中尝试这种方法。

“一幅由Stanley Artgerm Lau和Agnes Martin合作创作的流行艺术超现实主义肖像画,画面中年轻女性身着FC Barcelona球衣,正在(庆祝: 2)进球,背景中有足球运动员和人群,作品源自Artstation,4K高清,锐利对焦,边缘照明,以青色为主调。”

强调关键词“庆祝”

也许这个模型对“庆祝”有着不同的理解。这也是你为什么需要在提示语中进行尝试和实验的一个例子。

另一种强调方法是使用圆括号,其效果等同于将关键词的强调系数设为1.1。我们还可以通过使用双层或三层圆括号来进一步增强强调程度:

  • (keyword) 相当于 (keyword: 1.1)
  • ((keyword)) 相当于 (keyword: 1.21)
  • (((keyword))) 相当于 (keyword: 1.33)

与此类似,使用多层方括号的效果如下:

  • [keyword] 相当于 (keyword: 0.9)
  • [[keyword]] 相当于 (keyword: 0.81)
  • [[[keyword]]] 相当于 (keyword: 0.73)

关键词融合关键词融合有助于同时结合多个主题的效果。以下是一些流行的关键词融合方式:
 

  • [keyword1 : keyword2: factor]
  • (keyword1: factor1), (keyword2: factor2)

让我们在prompt中使用第二种格式:“一幅流行艺术风格、超写实主义的年轻女子肖像,(Gal Gadot: 0.9), (Scarlett Johansson: 1.1),身着巴塞罗那足球俱乐部球衣,在背景中与足球运动员及观众一起庆祝进球,由Stanley Artgerm Lau和Agnes Martin创作,来自Artstation,4K高清,焦点锐利,边缘照明,青色调。”

通过提示语控制人物面部特征
这是一个很好的混合体。仿佛是漫威与DC在足球场上的对决。然而,看起来模型完全忽略了庆祝场景、人群以及球员的存在。要改善这一点,可以尝试以不同方式构建提示语或重新措辞。
最后,以下是使用相同提示语,但模型改为Anything XL v5.0时得到的结果。这是一个用于动漫或卡通风格的模型,差异非常明显:

使用相同提示语但模型为动漫风格所得结果
总之,在写Stable Diffusion的prompt时,有很多可以尝试的参数,而熟练掌握这些技巧唯有通过不断实践。保持练习吧!
延伸阅读

以下是一些可能有助于提示的资源:

  • InstallGentoo wiki 的 Stable Diffusion 页面

页面链接:https://wiki.installgentoo.com/wiki/Stable_Diffusion

  • 来自 CLIP 查询器源代码的数据文件

文件链接:
https://github.com/pharmapsychotic/clip-interrogator/tree/main/clip_interrogator/data
文章推荐小扎万字深度访谈:最强开源大模型Llama 3发布,Meta的AGI路径和开源哲学

AI已悄悄改变职场,微软如何推动数十万员工都用上Copilot?

Hugging Face 推出 Idefics2,携 80 亿参数模型突破多模态关键技术


如有侵权,请联系删除。参考链接:
https://machinelearningmastery.com/prompting-techniques-stable-diffusion/

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号