赞
踩
DeepFloyd IF 采用模块化设计,由一个固定的文本编码器和三个级联的像素扩散模块组成:
DeepFloyd IF模型的所有阶段都使用基于 T5 变换器的固定文本编码器提取文本嵌入,然后将其输入到增强了跨注意力和注意力池化的 UNet 架构中。
DeepFloyd IF是一个模块化的、级联的、像素扩散模型。
和stable diffusion最大的区别是deep-floyd是在像素空间做扩散,而不是在latents空间做扩散。
参考:
新的生图模型DeepFloyd IF来了,可以拳打Stable Diffusion,脚踢Dall-E?
一款由文本生成图像的强大模型,可以智能地将文本集成到图像中
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。