小红花·文摘

本研究提出了一种去噪扩散概率模型的视频建模框架，能够生成长时间视频。该方法优化采样顺序，使用选择性稀疏和长程调节，在多个数据集上表现优于现有技术，生成了长达25分钟的视频。此外，研究还发布了一个基于CARLA自动驾驶模拟器的视频数据集和语义度量。