运维做开发

这个屌丝很懒，什么也没留下！

热门标签

Stable Diffusion｜SD3已开源，内附工作流及模型！_sd3工作流

作者：运维做开发 | 2024-07-02 12:50:47

踩

sd3工作流

翘首以待的SD3终于在6月12日放出了开源模型，不过，稍显遗憾的是，仅放出了medium（2B）版本，完整版本的大模型依然未开源。根据官方通告，将来完整版依然会开源。

之前就有很多人在讨论，SD3是否会超越当前市场上的领头羊Midjourney，成为AI绘画领域的新标杆。

#01

/介绍

SD3采用了与Sora相同的底层架构，并引入了全新的多模态DiT（Multimodal Diffusion Transformer）模型，使得画面质量、文字渲染、复杂对象理解能力都有了显著提升。

新一代文生图大模型Stable Diffusion 3，在填写Waitlist后可以在HuggingFace免费下载，当前开源的包含三种中型参数模型，包括：

sd3_medium.safetensors 包括 MMDiT 和 VAE 权重，但不包括任何文本编码器。
sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的权重，包括 T5XXL 文本编码器的 fp8 版本，提供质量和资源要求之间的平衡。
sd3_medium_incl_clips.safetensors 包括除 T5XXL 文本编码器之外的所有必需权重。它需要最少的资源，但如果没有 T5XXL 文本编码器，模型的性能将会有所不同。

三种不同规则的模型，可以根据自己的需求以及GPU选择。

图像质量与美学体系

SD3在图像质量上的提升是显而易见的。它不仅拥有DALL-E 3的文生图准确性，同时也具备Midjourney V6的美学体系。

通过对比测试，我们可以看到SD3在处理复杂场景和细节方面的能力远超前代产品。例如，在处理包含多个对象和文本元素的场景时，SD3能够更准确地理解和渲染用户输入的指令。

语义理解与指令展现

SD3的另一个显著优势是其对复杂语义的理解能力。在输入相同的prompt指令时，SD3能够更真实地展现美术风格，并对指令进行更精确的展现。

这一点在Midjourney中也有所体现，但SD3在理解和执行复杂指令方面表现得更为出色。

SD3的技术亮点

MMIDT架构

SD3采用了MMDiT架构，这是一种专为处理多模态能力而设计的架构。它结合了文本和图像两种模态。

通过三种不同的文本嵌入模型——两个CLIP模型和一个T5，以及一个自编码模型来编码图像token。

这种架构使得图像和文本信息之间可以相互流动和交互，从而在生成的结果中提高对内容的整体理解和视觉表现。

图像-文本对齐与VAE

SD3在图像-文本对齐方面的表现尤为突出。它使用了强大的VAE（变分自编码器）技术，这不仅提高了模型的质量，而且实际上带来了更快的训练速度。这种技术的应用，使得SD3在512x512分辨率下的表现令人难以置信，即使在较小的图像尺寸下，也能捕捉到丰富的细节。

光影操控与IC-Light

除了核心的绘画功能，SD3还可能与IC-Light这样的AI图像照明操纵工具相结合，实现对光影的精细控制。

IC-Light能够在不依赖复杂提示的情况下，通过简单的文本描述或背景条件，对图像的光照进行调整，创造出各种光影效果。

#02

/使用

目前仅最新版的ComfyUI支持SD3，将ComfyUI更新到最新。

1、模型下载

2、模型安装

官方发布了一个2b的基础模型sd3_medium.safetensors，安装路径：ComfyUI\models\checkpoints

发布了三个clip模型：clip_g.safetensors、clip_l.safetensors、t5xxl_fp8_e4m3fn.safetensors，安装路径：ComfyUI\models\clip

3、基础工作流下载

加载工作流后，主要进行加载模型设置：

模型选择sd3_medium.safetensors，三个CLIP分别选择clip_g.safetensors、clip_l.safetensors、t5xxl_fp8_e4m3fn.safetensors。

其余配置采用默认即可。

4、官方推荐提示词：

a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character’s face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres

Digital art, portrait of an anthropomorphic roaring Tiger warrior with full armor, close up in the middle of a battle, behind him there is a banner with the text “Open Source”.

photo of a dog and a cat both standing on a red box, with a blue ball in the middle with a parrot standing on top of the ball. The box has the text “SD3”

selfie photo of a wizard with long beard and purple robes, he is apparently in the middle of Tokyo. Probably taken from a phone.

A vibrant street wall covered in colorful graffiti, the centerpiece spells “SD3 MEDIUM”, in a storm of colors

photo of a young woman with long, wavy brown hair tied in a bun and glasses. She has a fair complexion and is wearing subtle makeup, emphasizing her eyes and lips. She is dressed in a black top. The background appears to be an urban setting with a building facade, and the sunlight casts a warm glow on her face.

anime art of a steampunk inventor in their workshop, surrounded by gears, gadgets, and steam. He is holding a blue potion and a red potion, one in each hand

photo of picturesque scene of a road surrounded by lush green trees and shrubs. The road is wide and smooth, leading into the distance. On the right side of the road, there’s a blue sports car parked with the license plate spelling “SD32B”. The sky above is partly cloudy, suggesting a pleasant day. The trees have a mix of green and brown foliage. There are no people visible in the image. The overall composition is balanced, with the car serving as a focal point.

photo of young man in a black suit, white shirt, and black tie. He has a neatly styled haircut and is looking directly at the camera with a neutral expression. The background consists of a textured wall with horizontal lines. The photograph is in black and white, emphasizing contrasts and shadows. The man appears to be in his late twenties or early thirties, with fair skin and short, dark hair.

photo of a woman on the beach, shot from above. She is facing the sea, while wearing a white dress. She has long blonde hair

可SD3能非常好的理解自然语言，比SDXL更上一层楼。

5、跑图！

#03

/效果对比

1. 第一组内容提示词，看一下语义理解能力。

a cat,a destroyed badly damaged space ship,beautiful beach,broken windows, grass and flowers grow around,sunny,ocean（一只猫，一艘被摧毁的严重受损的宇宙飞船，美丽的海滩，破碎的窗户，周围长着草和鲜花，阳光明媚，海洋）

SD1.5：emmmmmm，这怎么成两张了，小猫咪看起来不太高兴啊，挎着个脸，海滩不太美丽雅，阳光呢？

SD2.0：不是，小猫怎么从船里长出来了，还有月亮你是怎么回事儿？不是说好的太阳吗。

SDXL：整体还行，但画面有点昏暗，配色不是很舒服。

SD3：王炸！语义理解能力极强，阳光明媚，美丽的海滩，鲜花……关键细节什么的都很好，画面也很和谐。

2. 再来测一下相对位置关系理解，这个更加考验模型能力。

a dog,hold hot dog,outdoors,grass（一只狗，叼着热狗，户外，草地）

SD1.5：emmmmmm，这小狗的热狗怎么悬空了啊？你的热狗怎么成香肠了？

SD2.0：SD2.0比较聪明，他直接把热狗放到了地上，哈哈这样你就挑不出我毛病了吧，但是语义理解不对啊大哥。

SDXL：基本理解了我的意思，但是这个画风，以及这个舌头衔接太奇怪了吧。

SD3：王炸！光效衔接都非常自然，小狗很可爱，热狗也很有食欲。

3.测试一下二次元动漫人物。

((anime style)),1girl, indoors, sitting on the sofa, living room, pink hair, blue eyes, from back, from above, face towards viewer, playing video games, holding controller, white shirt, short, parted lips, anime production（（（动漫风格）），1女孩，室内，坐在沙发上，客厅，粉红色的头发，蓝眼睛，从后面，从上面，脸朝向观众，玩电子游戏，拿着手柄玩游戏，白衬衫，短，分开的嘴唇，动漫制作）

SD1.5：底模过于抽象。。。很多细节都丢失了，对比着看一下吧，从头发到眼睛。

SD1.5：千手观音？

SDXL：有点感觉了，但是你的画风画质很难评

SD3：没的说，依然是王炸！从头发到眼镜，从整体画质，到细节，No1！

动漫还做了另一组对比图。

4. 再测试一下不同的科幻风格

robot droids, in the desert , colorful, dutch angle（机器人，在沙漠中，五颜六色）

SD1.5：这机器人，是营养不良吧？哈哈哈还有说好的五颜六色呢？

SD2：右边这哥们你的手臂掉了~其他不必多说了，懂得都懂嘿嘿

SDXL：还行，但是这个机器人怎么这么丑呢，三条腿不对称

SD3：同样很Nice，依然是王炸，除了这颜色跟我理解的五颜六色不太一样。

5. 再测一组真人图片，难度也蛮大的，要求在水下。

1boy,underwater,green eyes,white skirt,looking at viewer（1个男孩，水下，绿色眼睛，白色裙子，看着观众）

SD1.5：恐怖片。。。

SD 2.0：更恐怖了，有点像泡开的奥特曼。。

SDXL：还可以，凑合能看，就是这绿的啊。

SD3：非常NIce！

再测另一组真人的。

6. 来一组风景。

universe,stars,moon（宇宙、星星、月亮）

SD1.5：有点像我爸的微信头像。。。

SD 2.0：凑合，就是构图雪崩。

SDXL：SDXL是真的好容易画卡通。

SD3：这氛围就到位了。

7.最后一个SD3最棒的，文字嵌入。

Cyberpunk style,urban,1 robot,an electronic screen with“ Khazix”（赛博朋克风格，都市，1个机器人，一个带有“卡兹克斯”的电子屏幕）

这个就不评价了，因为过往的SD模型，都不支持文字嵌入，目前SD3是独一份。

文章使用的AI绘画SD整合包、各种模型插件、提示词、AI人工智能学习资料都已经打包好放在网盘中了，有需要的小伙伴文末扫码自行获取。

写在最后

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。