赞
踩
上帝视角看的神作 DIT 架构,22 年 12 月 META(伯克利+新乡大学)发布,一个取代了 Unet 的全 transformer diffusion 生图架构。
总体结构如下图,文章一共给出了 3 重 DiT 的 block 结构,区别是 condition 的注入方式,从左到右依次是:
dimensionwise scale and shift parameters γ and β
。对于 natural language 长文本来说不是很够用vae 之后的 latent,过类似 ViT 的 patch 操作,把原本二维的图像特征一维化。
DiT 的基本结构 follow ViT 的几种配置:ViT-B、S、L、XL,因此也有四种对印度个参数量设置
可以参考原文,结果展示不是很重要,重点是思路
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。