Stability AI发布新版文生图模型：依然开源

作者：黑客灵魂 | 2024-07-25 08:51:27

踩

Stability AI最近发布了Stable Diffusion 3 Medium（简称SD3 Medium），这是其最新的文生图模型，被官方称为“迄今为止最先进的开源模型”。SD3 Medium的性能甚至超过了Midjourney 6，特别是在生成手部和脸部图像方面表现出色，能够生成高度逼真的图像。这一模型还利用了其底层的Diffusion Transformer架构，以高精度整合文字元素。此外，SD3 Medium易于使用，并能在消费级显卡上运行，从而加速了其普及和适配。
Stability AI计划在未来将其产品扩展到视频和音频生成领域。目前，SD3 Medium已经在Hugging Face上开源，拥有20亿参数，相较于前两代模型，在照片真实感、样式、图片质量、算力资源消耗等方面都进行了大幅度优化。Stable Diffusion 3系列已被全球数百万开发者使用，很多文生视频/3D模型也借鉴了该架构。
这一开源举措在AI社区引起了广泛关注。Stable Diffusion 3的开源被认为是AI图像生成领域的一个重要里程碑，其强大的架构、更好的明暗对比度、提示遵循、训练结果、模型合并、图像分辨率等方面都带来了显著贡献。此外，这一模型在训练时会捕获更多细节，不仅提高了模型的质量，而且实际上带来了更快的训练速度。这些改进使得SD3成为目前图像生成领域的领先开源模型。

Stable Diffusion 3 Medium（SD3 Medium）相比于前几个版本的模型，具有以下几个显著的优点：

图像质量提升：SD3 Medium在生成手部和脸部图像方面表现出色，能够生成高度逼真的图像。这表明模型在细节表达和真实感方面有了显著提升。
文字整合能力：新模型利用了底层的Diffusion Transformer架构，能够以更高的精度整合文字元素到生成的图像中。
资源消耗优化：相较于前两代模型，SD3 Medium在照片真实感、样式、图片质量等方面进行了大幅度优化，同时在算力资源消耗上更为高效。
训练效率：SD3在训练过程中能够捕获更多细节，这不仅提高了模型的质量，而且实际上带来了更快的训练速度。
开源性质：作为开源模型，SD3 Medium的发布使得更多的开发者能够访问和使用这一先进技术，从而推动了技术的普及和创新。
易于使用和适配：SD3 Medium易于使用，并能在消费级显卡上运行，这意味着更多的用户能够轻松地部署和利用这一模型。
广泛的应用前景：随着Stability AI计划将其产品扩展到视频和音频生成领域，SD3 Medium的应用范围将进一步扩大。
总的来说，Stable Diffusion 3 Medium在图像生成领域实现了显著的进步，特别是在细节表现、真实感、资源效率和训练速度方面，这些都是其相较于前代模型的主要优势。

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/黑客灵魂/article/detail/879319