赞
踩
Stable Diffusion要王者归来了?
SD3-Turbo文生图效果图 图片来源SD3-Turbo论文
从上图中可以看到,新模型在prompt控制上更上一层楼,氛围感方面也有明显的提升。
使用Diffusion transformer模型结构:这个模型结构可以说和Sora使用的基础模型一致,被称为DiT架构。主要是使用Transformers替换扩散模型中U-Net主干网络。这样做的效果不仅速度更快,而且在不同任务上都取得了很好的效果。
Stable Diffusion 3 Medium的参数量为2B,大小适中,它非常适合在消费级个人电脑和笔记本电脑上运行,同时也适用于企业级GPU。
SD3 Medium的优势如下所示:
照片级真实感:克服了手部和面部常见的伪影问题,无需复杂的工作流程即可提供高质量的图像。
提示词遵循性:理解涉及空间关系、构图元素、动作和风格的复杂提示。
文字能力:借助Diffusion Transformer架构,在生成无伪影和拼写错误的文本方面取得了前所未有的成果。
资源高效:由于其低VRAM占用,非常适合在标准消费级GPU上运行,且不降低性能。
微调:能够从小数据集中吸收细微的细节,使其非常适合定制化。
下载更新:(一)更新 ComfyUI:
怎么更新就不用说了吧,更新到最新版就可以;(二)下载 SD3 模型:
给大家打包好了~ 自己替换中文词 https://pan.百度.com/s/1Rcsv0ud8zJj3zcJIhQPdKw?pwd=czqa
什么叫SD传统的方式呢,就是把你的要求拆开成一个个关键词,然后用逗号分开,这是和SD3完全背道而驰的,比如说如下这种写提示词的方式,千万不要用,用了的话提示词遵循能力会很垃圾,质量也会差:
photorealistic image, an attractive young Caucasian man, short messy pale blonde hair, wearing an olive green suit, dark green vest, white dress shirt, red tie, slim and slender, looking at viewer, serious expression, in a palace hall, soft diffused sunlight, low contrast, low saturation, flat lighting
(不要用这种方法!别看错咯)
适用于SD3的提示词书写方法实际上只是自然语言,类似于你在ChatGPT里生成一个什么图,你在图片的详细信息页面里看到的那种提示词,你可以直接扔给SD3,出图效果会比截断式提示词好得多:
A photorealistic image of a very attractive young Caucasian man with short, messy pale blonde hair. He's wearing an olive green suit with a dark green vest over a white dress shirt, complemented by a red tie. His build is slim and slender. He is looking directly at the viewer with a serious expression. The setting is a palace hall, illuminated by soft, diffused sunlight. The image is in portrait aspect ratio, with low contrast, low saturation, and flat lighting.
我有看到Comfy作者自己整了一个简单的workflow,就是那种以前的SD模型也通用的workflow,这种是不可以的,会生成非常垃圾甚至非常可怕的人像(四肢乱飞那种),一定要用SD官方在huggingface上传的那几个sample workflow(就是其中包含CLIP loader、好几个conditioning set timestep range还有那个model sampling sd3的node的复杂一些的workflow),生成的图片会正常得多。
官方的workflow大概长这样(我整理了一下子)
我有试过其他的sampler和scheduler,貌似是都不行,只有dpm++2m sgm_uniform的出图是正常的,其他的sampler出图要么是糊成一团要么是身体结构极其可怕,反正我现在是不敢动这两样了……CFG可以在1.5-6之间随意变动,model sampling shift基本1以上都可以,steps保持在28就行再往上用处不大(当然,你要觉得有些细节很拉,steps提高一些也没坏处就是了)。顺便一说CFG对于人像来说越往低越真,我试了一下1.5有时候有点儿崩,但是2-3的效果非常不错,皮肤和头发的质感都相当真实:
这张图我加了很多filler words,下面会提到
首先我解释一下filler words是什么:
cinematic still, emotional, harmonious, vignette, 4k epic detailed, shot on kodak, 35mm photo, sharp focus, high budget, cinemascope, moody, epic, gorgeous, film grain, grainy, bright colors, highly detailed, sharp focus, intricate, cinematic light, elegant, confident, rich, animated, background composed, vivid, very coherent, shiny, excellent composition, dynamic, ambient dramatic color, beautiful, epic, stunning
像以上这种不描述你要生成的具体内容的修饰词,我把它统称为filler words,这些filler words对于SDXL和SD1.5来说都是非常重要的,SD3也是一样,这也是为什么Fooocus上面使用SDXL效果好像会比A1111直接使用SDXL要好得多,就是因为Fooocus有一些默认添加的preset,这些preset就给提示词加上了很多个filler words
SD3的例子里,不加filler words的话图片会看起来比较粗糙,不是那么professional,但是如果你要的正好是那种比较日常、普通人随手拍照的效果,那就不要加任何filler words也不要加太多负面提示词。
不添加filler words,且只写出不想生成的元素作为negative prompt
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。