2D Triplane 和 3D 小波表示的混合视频扩散模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种基于转换器的W.A.L.T方法,用于逼真视频生成。通过因果编码器在统一的潜在空间中联合压缩图像和视频,并使用窗口注意力架构进行联合空间和时空生成建模,实现了最先进的性能。同时,还训练了三个模型的串联,用于文本到视频生成任务。
🎯
关键要点
- 提出了一种基于转换器的W.A.L.T方法,用于逼真视频生成。
- 使用因果编码器在统一的潜在空间中联合压缩图像和视频,实现跨模态训练和生成。
- 采用窗口注意力架构以提高记忆和训练效率,进行联合空间和时空生成建模。
- 在UCF-101和Kinetics-600视频生成基准以及ImageNet图像生成基准上达到最先进的性能。
- 训练了三个模型的串联,用于文本到视频生成任务,包括潜在视频扩散模型和两个视频超分辨率扩散模型。
- 生成的视频分辨率为512 x 896,每秒8帧。
➡️