Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
💡
原文中文,约7000字,阅读约需17分钟。
📝
内容提要
本文介绍了Diffusion Transformer(DiT),一种用Transformer架构替代U-Net的神经网络,结合了视觉Transformer和扩散模型的优点。DiT在视频生成中调整模型结构以支持不同分辨率,并引入时间维度以保持一致性。研究者还探讨了类似的U-ViT架构,强调了Transformer在扩散模型中的潜力。
🎯
关键要点
- Diffusion Transformer(DiT)是一种用Transformer架构替代U-Net的神经网络,结合了视觉Transformer和扩散模型的优点。
- DiT在视频生成中调整模型结构以支持不同分辨率,并引入时间维度以保持一致性。
- DiT的架构包括训练条件潜在DiT模型和不同的条件策略,如自适应层归一化和交叉注意力。
- 为了支持视频生成,DiT需要设计模型结构以处理不同长宽比和分辨率,并加入时间维度。
- U-ViT是比DiT更早的类似架构,采用基于Transformer的架构替代U-Net,局限于2D图像生成。
- Google Research提出的Simple Diffusion架构与U-ViT相似,使用自注意力的MLP块替代卷积层。
- 北大和华为提出的U-DiT架构结合了U-Net和Transformer,旨在提升扩散模型的效果。
➡️