赞
踩
Paper name
Scalable Diffusion Models with Transformers (DiT)
Paper Reading Note
Paper URL: https://arxiv.org/abs/2212.09748
Project URL: https://www.wpeebles.com/DiT.html
Code URL: https://github.com/facebookresearch/DiT
Patchify:DiT 的输入是图像的空间表示 z(对于 256×256×3 的图像,z 的形状为 32×32×4)。DiT的第一层是 “patchify”,它通过将输入中的每个补丁线性嵌入,将空间输入转换成一系列 T 个 token,每个 token 的维度为 d。在执行 patchify 之后,我们对所有输入 token 应用标准的 ViT 基于频率的位置嵌入(正弦-余弦版本)。由 patchify 创建的 token 数量 T 由补丁大小超参数 p 决定。如下图所示,将 p 减半会使 T 增加四倍,因此至少使整个 transformer Gflops 增加四倍。DiT 中主要实验了 p = 2, 4, 8
DiT block:如整体框架图中所示,根据 condition 加入的不同方式分为以下四种设计思路
Model size
Transformer 解码器
提升模型计算量稳定涨点
只要模型计算量接近,FID 就接近。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。