街景:基于自回归视频扩散的大规模一致街景生成
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该研究提出了一种生成城市风景全景长序列视图的方法,通过动态合成大规模场景实现。研究借鉴了视频扩散的研究成果,在自回归框架的基础上进行建模,并引入了一种新的时间插补方法。
🎯
关键要点
- 该研究提出了一种生成城市风景全景长序列视图的方法。
- 方法通过动态合成大规模场景实现,受到语言输入和基础地图的条件约束。
- 与视频生成模型或3D视图合成方法相比,该方法可扩展到更长的摄像机轨迹,保持视觉质量和一致性。
- 研究借鉴了视频扩散的成果,在自回归框架下建模,易于扩展到长序列。
- 引入了一种新的时间插补方法,确保自回归方法不偏离现实城市图像的分布。
- 使用来自Google Street View的姿势图像和上下文地图数据训练系统,用户可生成城市视图。
➡️