DriveScape:面向高分辨率可控多视角驾驶视频生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了Delphi,一种基于扩散的长视频生成方法,通过共享噪声建模和特征对齐模块提高空间和时间一致性。Delphi在驾驶规划中生成高质量长视频,提升自动驾驶模型的规划性能25%。

🎯

关键要点

  • 使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准。
  • 现有方法在提高感知模型方面有效,但未能提高端到端自动驾驶模型的规划性能。
  • 生成的视频通常少于8帧且空间和时间不一致。
  • 提出了一种基于扩散的长视频生成方法Delphi。
  • Delphi通过共享噪声建模机制提高空间一致性。
  • 引入特征对齐模块实现精确可控性和时间一致性。
  • Delphi最多可生成40帧的视频,保持一致性,是现有方法的5倍。
  • 构建失败案例驱动框架,设计采样策略提高样本效率。
  • Delphi在驾驶规划中生成更高质量的长视频,超越现有最先进的方法。
  • 仅使用训练数据集的4%,提升自动驾驶模型的规划性能25%。
➡️

继续阅读