💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本论文提出了一种名为Diffusion Transformer-DiT的模型,用于替代DDPM中的UNet。作者通过训练四种不同大小的模型,并探索了补丁大小、变压器块架构和模型大小等设计空间。模型首先对补丁序列进行操作,然后使用diffusion transformers进行设计。作者使用标准线性解码器将输出解码为噪声预测和对角协方差预测。最后,将解码的token重新排列到原始空间布局中,得到预测的噪声和协方差。
🎯
关键要点
- 论文提出了一种名为Diffusion Transformer-DiT的模型,用于替代DDPM中的UNet。
- 作者训练了四种不同大小的模型:DiT-S、DiT-B、DiT-L和DiT-XL,补丁大小分别为8、4、2。
- 探索的设计空间包括补丁大小、变压器块架构和模型大小。
- 模型的第一层对补丁序列进行操作,将图像视为16x16的单词序列。
- 在获取patch序列后,需添加去噪步数和类别标签,最后一个DiT块后删除这些信息。
- 最终的DiT块输出需解码为噪声预测和对角协方差预测,形状与模型输入相同。
- 使用标准线性解码器将输出解码为p×p×2C张量,C为输入到DiT的空间大小。
- 最后,将解码的token重新排列到原始空间布局中,得到预测的噪声和协方差。
➡️