💡
原文中文,约800字,阅读约需2分钟。
📝
内容提要
本文探讨了用ViT替代DDPM中的UNet,提出了Diffusion Transformer-DiT模型。作者训练了四种不同大小的DiT模型,研究了补丁大小、变压器架构和模型规模。模型通过处理补丁序列进行操作,并在设计中加入去噪步数和类别标签,最终输出噪声预测和协方差。
🎯
关键要点
- 本文探讨了用ViT替代DDPM中的UNet,提出了Diffusion Transformer-DiT模型。
- 作者训练了四种不同大小的DiT模型:DiT-S、DiT-B、DiT-L和DiT-XL,补丁大小分别为8、4、2。
- 模型设计空间包括补丁大小、变压器块架构和模型规模。
- 模型的第一层对补丁序列进行操作,将图像视为由补丁构成的序列。
- 在获取补丁序列后,需添加去噪步数和类别标签,并在最后一个DiT块后删除。
- 最终输出为噪声预测和对角协方差预测,形状与模型输入相同。
- 使用标准线性解码器将输出解码为张量,并重新排列到原始空间布局中。
🏷️
标签
➡️