OpenSU3D:基于基础模型的开放世界 3D 场景理解
发表于: 。通过使用 2D 基础模型,我们提出了一种新颖的可扩展方法来构建开放世界中的实例级 3D 场景表示,有效地聚合实例级细节,并提出融合方案来增强特征向量的上下文知识和性能,以及探索大型语言模型用于自动注释和空间推理任务。我们在多个场景上评估了我们的方法,并展示了零 - shot 泛化能力,超越了当前的开放世界 3D 场景理解方法。
通过使用 2D 基础模型,我们提出了一种新颖的可扩展方法来构建开放世界中的实例级 3D 场景表示,有效地聚合实例级细节,并提出融合方案来增强特征向量的上下文知识和性能,以及探索大型语言模型用于自动注释和空间推理任务。我们在多个场景上评估了我们的方法,并展示了零 - shot 泛化能力,超越了当前的开放世界 3D 场景理解方法。