扩散变压器捕捉空间时间依赖性:一种用于高斯过程数据的理论
原文中文,约400字,阅读约需1分钟。发表于: 。Diffusion Transformer successfully scales the capacity of diffusion models for video generation and captures spatial-temporal dependencies, as validated by theoretical analysis and numerical experiments.
本文介绍了一种基于转换器的W.A.L.T方法,用于逼真视频生成。通过因果编码器和窗口注意力架构,实现了跨模态的训练和生成。在已知的视频和图像生成基准上达到了最先进的性能。同时还训练了三个模型的串联,用于文本到视频生成任务。