本研究提出了一种去噪扩散概率模型的视频建模框架,能够生成长时间视频。该方法优化采样顺序,使用选择性稀疏和长程调节,在多个数据集上表现优于现有技术,生成了长达25分钟的视频。此外,研究还发布了一个基于CARLA自动驾驶模拟器的视频数据集和语义度量。
完成下面两步后,将自动完成登录并继续当前操作。