一张地图找到所有物体:实时开放词汇映射用于零样本多物体导航
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文介绍了一种零样本导航方法,即视觉语言前沿地图(VLFM),通过深度观测和预训练的视觉语言模型,在陌生环境中驶向未见过的语义对象。VLFM在多个数据集上实现了最先进的结果,并在现实世界的机器人上展示了高效导航的能力。
🎯
关键要点
-
本文介绍了一种零样本导航方法,称为视觉语言前沿地图(VLFM)。
-
VLFM受人类推理启发,旨在在新环境中导航至未见过的语义对象。
-
VLFM通过深度观测建立占用地图,识别前沿,并利用RGB观测和预训练的视觉语言模型生成基于语言的价值地图。
-
在Gibson、Habitat-Matterport 3D(HM3D)和Matterport 3D(MP3D)数据集上,VLFM在对象目标导航任务的成功路径长度(SPL)方面实现了最先进的结果。
-
VLFM的零样本特性使其能够轻松部署在现实世界的机器人上,如波士顿动力公司的Spot移动操作平台。
-
在现实世界的办公楼中,VLFM展示了高效导航到目标对象的能力,无需任何对环境的先验知识。
-
VLFM的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。
🏷️
标签
➡️