CrossViewDiff:用于卫星到街景合成的跨视角扩散模型
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了卫星到街景合成中的视角差异问题。提出的CrossViewDiff模型通过卫星场景结构估计和跨视角纹理映射模块,提供了结构和纹理控制,显著提高了生成街景图像的质量和真实感。实验结果表明,该模型在多个公共跨视角数据集上表现优于现有的最先进技术。
该方法通过动态合成大规模场景来生成城市风景全景长序列视图。与其他方法相比,它可以扩展到更长的摄像机轨迹,跨越数个城市街区,同时保持视觉质量和一致性。该方法借鉴了最近关于视频扩散的研究成果,在一个自回归框架的基础上进行建模,并引入了一种新的时间插补方法。使用Google Street View的姿势图像和上下文地图数据来训练该系统,用户可以根据任何期望的城市布局和可控制的摄像机姿势生成城市视图。