赞
踩
近期,SD(Stable Diffusion)原班人马(跳槽后新成立团队——Black Forest Lab)开源模型 FLUX.1,或成文生图模型新霸主!
FLUX.1 系列包含 pro、dev、schnell 3 个模型。主要在文字生成、复杂指令遵循和人手生成上具备优势。
FLUX.1pro:FLUX.1中最先进的,具有顶级的即时提示词遵循、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。
FLUX.1dev:从FLUX.1[pro]蒸馏而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效,多面向非商业应用。
FLUX.1schnell:最快模型,适合本地开发和个人使用。
官网地址:https://www.basedlabs.ai/tools/flux1
开源地址:https://github.com/black-forest-labs/flux
三款模型试用地址:
https://replicate.com/black-forest-labs/flux-pro
https://replicate.com/black-forest-labs/flux-dev
https://replicate.com/black-forest-labs/flux-schnell
对于下一步工作,团队表示将推出基于 FLUX.1 的 SOTA 文生视频模型,预示着一场视觉盛宴的即将开启,让我们共同期待其带来的全新震撼体验!
同时,本文精心策划,深入挖掘并汇聚了一系列顶尖的开源Text-to-Image生成模型,旨在为科研工作者打造一把高效利器,促进其在探索之旅中取得更加辉煌的成就。
Stable Diffusion 各版本升级亮点:
v1:基础的文字生成图像(文生图)功能,可以通过输入关键词或描述来生成对应的图像。
v2:引入 OpenCLIP,提升画质至 768x768(兼容512x512),新增 Depth2img 与优化 inpainting,全面提升质量与速度。
v3:采用 Sora 相似技术(Diffusion Transformer),增强扩展性,支持视频、3D等多类型内容创作。
开源团队:Stabililty AI
中文介绍:https://zhuanlan.zhihu.com/p/669570827
开源地址v1:https://github.com/CompVis/stable-diffusion
开源地址v2:https://github.com/Stability-AI/stablediffusion
Kandinsky3.0:升级版文本转图像技术,实现更高质量、真实感的图像生成,模型总参数达到了 119 亿(11.9B),约是 Kandinsky 家族先前模型中最大模型的三倍。
开源团队:俄罗斯 AI 研究团队 AI Forever
应用:Inpainting、Outpainting、Image-to-Video Generation、Text-to-Video、text-to-image、Deforum
Kandinsky3:https://github.com/ai-forever/Kandinsky-3
Kandinsky2:https://github.com/ai-forever/Kandinsky-2
论文地址:https://arxiv.org/abs/2310.03502
项目地址:https://ai-forever.github.io/Kandinsky-3/
中文介绍:https://zhuanlan.zhihu.com/p/668853830
Hunyuan-DiT 是由腾讯开源的高性能细粒度中文理解多分辨率扩散 Transformer 模型。Sora 同架构,支持中英文双语输入及理解,参数量15亿,并且可免费商用。
特点:
首个中英双语DiT架构
支持中文元素理解
支持长文本理解能力
支持细粒度语义理解
支持多轮对话文生图
官网地址:http://dit.hunyuan.tencent.com/
代码地址:https://github.com/Tencent/HunyuanDiT
模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDi
开源地址:https://github.com/Tencent/HunyuanDiT
论文地址:https://arxiv.org/abs/2405.08748
PixArt各版本升级亮点:
PixArt-α:高质量、低成本的文生图模型,训练时长只有 SD 1.5 的 10.8%。
PIXART-δ: Pixart 家族的Controlent,为 DiT 模型引入可控生成能力,可在 8GB GPU上合成 1024px 图像,可定位为SD 模型的平替。
PixArt-Σ:生成 4K 图像,在保持较小模型大小(0.6B参数)的同时,实现了优于现有文本到图像扩散模型(如SDXL和SD Cascade)的图像质量和用户提示遵循能力。
开源团队:华为
更多介绍:https://zhuanlan.zhihu.com/p/697537149
PixArt-α开源地址:https://github.com/PixArt-alpha/PixArt-alpha
PixArt-Σ开源地址:https://github.com/PixArt-alpha/PixArt-sigma
趋动云『社区项目』汇聚了众多前沿的文生图模型,旨在让每一位 AI 探索者都能轻松一键部署,即刻沉浸于文字跃然纸上的奇妙旅程,尽享极速创作的无限乐趣!
体验入口
HunyuanDiT:https://open.virtaicloud.com/web/project/detail/466520679656460288
FLUX.1-schnell:https://open.virtaicloud.com/web/project/detail/476785176958730240
SD ComfyUI:https://open.virtaicloud.com/web/project/detail/460837001425108992
教程
趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。
趋动云的使命是连接算力·连接人:
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/1008581
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。