街景:基于自回归视频扩散的大规模一致街景生成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究提出了一种生成城市风景全景长序列视图的方法,通过动态合成大规模场景实现。研究借鉴了视频扩散的研究成果,在自回归框架的基础上进行建模,并引入了一种新的时间插补方法。

🎯

关键要点

  • 该研究提出了一种生成城市风景全景长序列视图的方法。
  • 方法通过动态合成大规模场景实现,受到语言输入和基础地图的条件约束。
  • 与视频生成模型或3D视图合成方法相比,该方法可扩展到更长的摄像机轨迹,保持视觉质量和一致性。
  • 研究借鉴了视频扩散的成果,在自回归框架下建模,易于扩展到长序列。
  • 引入了一种新的时间插补方法,确保自回归方法不偏离现实城市图像的分布。
  • 使用来自Google Street View的姿势图像和上下文地图数据训练系统,用户可生成城市视图。
➡️

继续阅读