无限:为城市街景生成照片级真实合成数据以用于物体检测
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该方法通过动态合成大规模场景生成城市风景全景长序列视图。与其他方法相比,该方法可以扩展到更长的摄像机轨迹,跨越数个城市街区,同时保持视觉质量和一致性。该方法使用自回归框架进行建模,并引入了一种新的时间插补方法,使得生成的城市视图不会偏离现实城市图像的分布。该系统使用Google Street View的姿势图像和上下文地图数据进行训练,用户可以根据任何期望的城市布局和可控制的摄像机姿势生成城市视图。
🎯
关键要点
- 提出了一种通过动态合成大规模场景生成城市风景全景长序列视图的方法。
- 该方法受到语言输入和基础地图/布局的条件约束。
- 与其他视频生成模型相比,该方法可以扩展到更长的摄像机轨迹,保持视觉质量和一致性。
- 借鉴了视频扩散的研究成果,采用自回归框架进行建模。
- 引入了一种新的时间插补方法,确保生成的城市视图与现实城市图像分布一致。
- 使用Google Street View的姿势图像和上下文地图数据进行训练。
- 用户可以根据期望的城市布局和可控制的摄像机姿势生成城市视图。
➡️