plus studio ·

ViT在DDPM取代UNet(DiT)

💡 原文中文，约700字，阅读约需2分钟。

📝

内容提要

本论文提出了一种名为Diffusion Transformer-DiT的模型，用于替代DDPM中的UNet。作者通过训练四种不同大小的模型，并探索了补丁大小、变压器块架构和模型大小等设计空间。模型首先对补丁序列进行操作，然后使用diffusion transformers进行设计。作者使用标准线性解码器将输出解码为噪声预测和对角协方差预测。最后，将解码的token重新排列到原始空间布局中，得到预测的噪声和协方差。

🎯

关键要点

论文提出了一种名为Diffusion Transformer-DiT的模型，用于替代DDPM中的UNet。
作者训练了四种不同大小的模型：DiT-S、DiT-B、DiT-L和DiT-XL，补丁大小分别为8、4、2。
探索的设计空间包括补丁大小、变压器块架构和模型大小。
模型的第一层对补丁序列进行操作，将图像视为16x16的单词序列。
在获取patch序列后，需添加去噪步数和类别标签，最后一个DiT块后删除这些信息。
最终的DiT块输出需解码为噪声预测和对角协方差预测，形状与模型输入相同。
使用标准线性解码器将输出解码为p×p×2C张量，C为输入到DiT的空间大小。
最后，将解码的token重新排列到原始空间布局中，得到预测的噪声和协方差。

🏷️

内容提要

关键要点

标签

继续阅读