通过可控的长视频生成释放自主驾驶的泛化能力
原文中文,约500字,阅读约需2分钟。发表于: 。使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准,然而现有方法在提高感知模型方面有效,但我们发现这些方法未能提高端到端自动驾驶模型的规划性能,原因在于生成的视频通常少于 8 帧且空间和时间不一致,为此我们提出了一种基于扩散的长视频生成方法 Delphi,通过跨多视角的共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性,相比现有方法,我们的方法最多可生成...
研究者提出了一种基于扩散的长视频生成方法Delphi,通过共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性。实验证明Delphi在驾驶规划中生成更高质量的长视频,提升了自动驾驶模型的规划性能25%。