通过可控的长视频生成释放自主驾驶的泛化能力

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究者提出了一种基于扩散的长视频生成方法Delphi,通过共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性。实验证明Delphi在驾驶规划中生成更高质量的长视频,提升了自动驾驶模型的规划性能25%。

🎯

关键要点

  • 研究者提出了一种基于扩散的长视频生成方法Delphi。
  • Delphi通过共享噪声建模机制提高空间一致性。
  • 引入特征对齐模块实现精确可控性和时间一致性。
  • Delphi最多可生成40帧视频,保持一致性,是现有方法的5倍。
  • 构建失败案例驱动框架,设计采样策略提高样本效率。
  • Delphi在驾驶规划中生成更高质量的长视频,超越现有最先进的方法。
  • 仅使用训练数据集的4%,Delphi提升自动驾驶模型的规划性能25%。
➡️

继续阅读