当前位置:   article > 正文

DiT:Scalable Diffusion Models with Transformers # 论文阅读

DiT:Scalable Diffusion Models with Transformers # 论文阅读

URL

TD;DR

上帝视角看的神作 DIT 架构,22 年 12 月 META(伯克利+新乡大学)发布,一个取代了 Unet 的全 transformer diffusion 生图架构。

Model & Method

总体结构如下图,文章一共给出了 3 重 DiT 的 block 结构,区别是 condition 的注入方式,从左到右依次是:

  1. adaLN-Zero:就是通过 adaptive layer norm 把 timestamp + cls token 注入到 attn token 里面,但是仅限于单个 token 的情况比较好用,因为只能引入两个可学习参数 dimensionwise scale and shift parameters γ and β。对于 natural language 长文本来说不是很够用
  2. 常见的 cross attn 方式,用来处理带有 text condition 的长文本输入。
  3. 直接 concat 到 vis token 后面,和第一种情况类似,token 长度过长之后就不好用了。猜测效果还没有第一种好。好处是几乎不引入额外的计算量。
    在这里插入图片描述

vae 之后的 latent,过类似 ViT 的 patch 操作,把原本二维的图像特征一维化。
在这里插入图片描述

DiT 的基本结构 follow ViT 的几种配置:ViT-B、S、L、XL,因此也有四种对印度个参数量设置

Dataset & Results

可以参考原文,结果展示不是很重要,重点是思路

Thought

  • 篇幅不多但是思路非常清晰,输入的 patch 操作帮助 DiT 不会受到分辨率的影响。
  • 另外因为是纯 transformer 架构,所以文生图的 scaling law 开始出现了
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/704530
推荐阅读
相关标签
  

闽ICP备14008679号