AI文生图新纪元：FLUX.1领衔，多款顶尖模型汇聚趋动云社区

作者：黑客灵魂 | 2024-08-20 20:12:42

踩

近期，SD(Stable Diffusion)原班人马(跳槽后新成立团队——Black Forest Lab)开源模型 FLUX.1，或成文生图模型新霸主！

FLUX.1 系列包含 pro、dev、schnell 3 个模型。主要在文字生成、复杂指令遵循和人手生成上具备优势。

FLUX.1pro：FLUX.1中最先进的，具有顶级的即时提示词遵循、视觉质量、图像细节和输出多样性，面向专业用户提供定制的企业解决方案。

FLUX.1dev：从FLUX.1[pro]蒸馏而来，具有相似的质量和能力，同时比相同尺寸的标准模型更高效，多面向非商业应用。

FLUX.1schnell：最快模型，适合本地开发和个人使用。

官网地址：https://www.basedlabs.ai/tools/flux1
开源地址：https://github.com/black-forest-labs/flux
三款模型试用地址：
- https://replicate.com/black-forest-labs/flux-pro
- https://replicate.com/black-forest-labs/flux-dev
- https://replicate.com/black-forest-labs/flux-schnell

对于下一步工作，团队表示将推出基于 FLUX.1 的 SOTA 文生视频模型，预示着一场视觉盛宴的即将开启，让我们共同期待其带来的全新震撼体验！

同时，本文精心策划，深入挖掘并汇聚了一系列顶尖的开源Text-to-Image生成模型，旨在为科研工作者打造一把高效利器，促进其在探索之旅中取得更加辉煌的成就。

Stable Diffusion

Stable Diffusion 各版本升级亮点：

v1：基础的文字生成图像(文生图)功能，可以通过输入关键词或描述来生成对应的图像。
v2：引入 OpenCLIP，提升画质至 768x768(兼容512x512)，新增 Depth2img 与优化 inpainting，全面提升质量与速度。
v3：采用 Sora 相似技术(Diffusion Transformer)，增强扩展性，支持视频、3D等多类型内容创作。

开源团队：Stabililty AI

中文介绍：https://zhuanlan.zhihu.com/p/669570827
开源地址v1：https://github.com/CompVis/stable-diffusion
开源地址v2：https://github.com/Stability-AI/stablediffusion

Kandinsky

Kandinsky3.0：升级版文本转图像技术，实现更高质量、真实感的图像生成，模型总参数达到了 119 亿（11.9B），约是 Kandinsky 家族先前模型中最大模型的三倍。

开源团队：俄罗斯 AI 研究团队 AI Forever

应用：Inpainting、Outpainting、Image-to-Video Generation、Text-to-Video、text-to-image、Deforum

Kandinsky3：https://github.com/ai-forever/Kandinsky-3
Kandinsky2：https://github.com/ai-forever/Kandinsky-2
论文地址：https://arxiv.org/abs/2310.03502
项目地址：https://ai-forever.github.io/Kandinsky-3/
中文介绍：https://zhuanlan.zhihu.com/p/668853830

Hunyuan-DiT

Hunyuan-DiT 是由腾讯开源的高性能细粒度中文理解多分辨率扩散 Transformer 模型。Sora 同架构，支持中英文双语输入及理解，参数量15亿，并且可免费商用。

特点：

首个中英双语DiT架构
支持中文元素理解
支持长文本理解能力
支持细粒度语义理解
支持多轮对话文生图

官网地址：http://dit.hunyuan.tencent.com/
代码地址：https://github.com/Tencent/HunyuanDiT
模型地址：https://huggingface.co/Tencent-Hunyuan/HunyuanDi
开源地址：https://github.com/Tencent/HunyuanDiT
论文地址：https://arxiv.org/abs/2405.08748

PixArt

PixArt各版本升级亮点：

PixArt-α：高质量、低成本的文生图模型，训练时长只有 SD 1.5 的 10.8%。
PIXART-δ: Pixart 家族的Controlent，为 DiT 模型引入可控生成能力，可在 8GB GPU上合成 1024px 图像，可定位为SD 模型的平替。
PixArt-Σ：生成 4K 图像，在保持较小模型大小(0.6B参数)的同时，实现了优于现有文本到图像扩散模型(如SDXL和SD Cascade)的图像质量和用户提示遵循能力。

开源团队：华为

更多介绍：https://zhuanlan.zhihu.com/p/697537149
PixArt-α开源地址：https://github.com/PixArt-alpha/PixArt-alpha
PixArt-Σ开源地址：https://github.com/PixArt-alpha/PixArt-sigma

『社区项目』，极享 AI 乐趣

趋动云『社区项目』汇聚了众多前沿的文生图模型，旨在让每一位 AI 探索者都能轻松一键部署，即刻沉浸于文字跃然纸上的奇妙旅程，尽享极速创作的无限乐趣！

体验入口

HunyuanDiT：https://open.virtaicloud.com/web/project/detail/466520679656460288
FLUX.1-schnell：https://open.virtaicloud.com/web/project/detail/476785176958730240
SD ComfyUI：https://open.virtaicloud.com/web/project/detail/460837001425108992

教程

教程系列1 | 趋动云『社区项目』极速部署 SD WebUI

趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务，也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人：

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】