微缩景观:释放零-shot 单视图 3D 场景建模
📝
内容提要
本研究解决了从RGB图像重建结构化3D场景的难题,现有方法依赖训练繁重的真实注释或单调的合成数据,难以泛化到未知对象或领域。我们提出的Diorama是首个零-shot开世界系统,能够从单视图RGB观察中全面建模3D场景,无需端到端训练或人类注释,显著优于之前的基线,并展示了对互联网图像和文本到场景任务的泛化能力。
➡️
本研究解决了从RGB图像重建结构化3D场景的难题,现有方法依赖训练繁重的真实注释或单调的合成数据,难以泛化到未知对象或领域。我们提出的Diorama是首个零-shot开世界系统,能够从单视图RGB观察中全面建模3D场景,无需端到端训练或人类注释,显著优于之前的基线,并展示了对互联网图像和文本到场景任务的泛化能力。