赞
踩
AuraFlow v0.3 是完全开源的基于流程的文本到图像生成模型。与前一版本 AuraFlow-v0.2 相比,该模型使用了更多计算量进行训练。
与 AuraFlow-v0.2 相比,该模型在更多美学数据集上进行了微调,现在支持各种长宽比(现在宽度和高度最高可达 1536 像素)。
该模型在 GenEval 上取得了最先进的结果。请阅读我们的博文,了解更多技术细节。您还可以在此图库页面查看与其他模型的比较。
该模型目前处于测试阶段。我们正在努力改进它,社区的反馈意见非常重要。请加入 fal’s Discord,向我们提供反馈并与模型开发保持联系。
鸣谢:衷心感谢 @cloneofsimo 和 @isidentical 将此项目付诸实践。这两位天才工程师能在如此短的时间内取得如此大的成就,实在令人难以置信。我们还要感谢那些了不起的研究人员,他们之前的工作为我们的努力奠定了基础。
$ pip install transformers accelerate protobuf sentencepiece
$ pip install git+https://github.com/huggingface/diffusers.git
from diffusers import AuraFlowPipeline import torch pipeline = AuraFlowPipeline.from_pretrained( "fal/AuraFlow-v0.3", torch_dtype=torch.float16, variant="fp16", ).to("cuda") image = pipeline( prompt="rempage of the iguana character riding F1, fast and furious, cinematic movie poster", width=1536, height=768, num_inference_steps=50, generator=torch.Generator().manual_seed(1), guidance_scale=3.5, ).images[0] image.save("output.png")
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。