赞
踩
本文分享使用Stable Diffusion 3实现文本生成图像,可以通过在线网页中免费使用的,也有API等方式访问。
同时结合论文和开源代码进行分析,理解其原理。
Stable Diffusion 3是Stability AI开发的最新、最先进的文本生成图像模型,在图像保真度、多主体处理和文本匹配方面取得了显著进步。
利用新的多模态扩散变换器(MMDiT)架构,它具有单独的图像和语言表示的Stable Diffusion 3权重。
目录
官网地址:https://stablediffusion3.net/zh-CN
如下图所示,生成的图片还挺清晰的,不错不错 :
点击图片,能看到“提示器”,图像比例,还能下载原图:
当然用中文作为提示词,也是可以的,效果也很不错
不同的画风和场景:
感觉生成图像很接近真实:
“提示词”描述得更详细,会生成更多细节:
思路流程:
比如,如下图所示,选择了Super Anime模型,同时生成两张图像,图像比例是1:1
Stable Diffusion3利用扩散变压器(DiT)架构,结合噪声预测和采样技术,生成高质量图像。
开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium
论文地址:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
模型的关键结构,如下图所示:
主要包括(a)多模态数据的扩散模型框架的组件、(b)MM-DiT块的细节,
(a)多模态数据的扩散模型框架的组件
1、Caption 输入:
2、特征提取模型:
3、合并特征:
4、噪声潜在变量(Noised Latent):
5、位置编码(Positional Embedding):
6、MM-DiT 块:
7、输出处理:
(b)MM-DiT块(Multimodal Diffusion Transformer)
1、输入:
2、SiLU 激活函数和线性层:
3、Layernorm 和调制(Modulation):
4、Attention 机制:
5、MLP(多层感知器):
6、残差连接(Residual Connections):
这个框架通过融合文本和图像特征,使用扩散模型逐步生成高质量的图像。
关键在于多模态 Transformer 块(MM-DiT block),通过注意力机制和非线性变换对特征进行处理,从而在生成过程中保持了数据的复杂性和一致性。
分享完成~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。