Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
💡
原文中文,约7000字,阅读约需17分钟。
📝
内容提要
本文介绍了Diffusion Transformer(DiT),一种用Transformer架构替代U-Net的神经网络,结合了视觉Transformer和扩散模型的优点。DiT在视频生成中调整模型结构以支持不同分辨率,并引入时间维度以保持一致性。研究者还探讨了类似的U-ViT架构,强调了Transformer在扩散模型中的潜力。
🎯
关键要点
- Diffusion Transformer(DiT)是一种用Transformer架构替代U-Net的神经网络,结合了视觉Transformer和扩散模型的优点。
- DiT在视频生成中调整模型结构以支持不同分辨率,并引入时间维度以保持一致性。
- DiT的架构包括训练条件潜在DiT模型和不同的条件策略,如自适应层归一化和交叉注意力。
- 为了支持视频生成,DiT需要设计模型结构以处理不同长宽比和分辨率,并加入时间维度。
- U-ViT是比DiT更早的类似架构,采用基于Transformer的架构替代U-Net,局限于2D图像生成。
- Google Research提出的Simple Diffusion架构与U-ViT相似,使用自注意力的MLP块替代卷积层。
- 北大和华为提出的U-DiT架构结合了U-Net和Transformer,旨在提升扩散模型的效果。
❓
延伸问答
Diffusion Transformer(DiT)是什么?
DiT是一种用Transformer架构替代U-Net的神经网络,结合了视觉Transformer和扩散模型的优点。
DiT在视频生成中如何调整模型结构?
DiT通过设计模型结构支持不同长宽比和分辨率,并引入时间维度以保持视频生成的一致性。
DiT的架构中有哪些条件策略?
DiT的架构包括自适应层归一化、交叉注意力和额外输入token等条件策略。
U-ViT与DiT有什么区别?
U-ViT是比DiT更早的架构,局限于2D图像生成,而DiT结合了时间维度,支持视频生成。
DiT在处理视频生成时使用了什么技术?
DiT使用了Causal Time Attention模块来收集历史时间信息,以维护生成视频的时间一致性。
U-DiT架构的创新点是什么?
U-DiT结合了U-Net和Transformer,旨在提升扩散模型的效果,并在算力上更为高效。
➡️