本论文提出了一种名为Diffusion Transformer-DiT的模型,用于替代DDPM中的UNet。作者通过训练四种不同大小的模型,并探索了补丁大小、变压器块架构和模型大小等设计空间。模型首先对补丁序列进行操作,然后使用diffusion transformers进行设计。作者使用标准线性解码器将输出解码为噪声预测和对角协方差预测。最后,将解码的token重新排列到原始空间布局中,得到预测的噪声和协方差。
完成下面两步后,将自动完成登录并继续当前操作。