无需训练的数据下的视觉语言模型推理物体导航

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种零样本导航方法——视觉语言前沿地图(VLFM),能够在新环境中识别目标对象。VLFM通过深度观测构建地图,并利用视觉语言模型生成价值地图,在多个数据集上取得了优异的结果,并在波士顿动力公司的Spot机器人上实现了高效导航。

🎯

关键要点

  • 本文介绍了一种零样本导航方法,称为视觉语言前沿地图(VLFM)。

  • VLFM受人类推理启发,旨在在新环境中导航到未见过的语义对象。

  • VLFM通过深度观测建立占用地图,并利用RGB观测和预训练的视觉语言模型生成价值地图。

  • 在Gibson、Habitat-Matterport 3D(HM3D)和Matterport 3D(MP3D)数据集上,VLFM在对象目标导航任务中取得了最先进的成功路径长度(SPL)结果。

  • VLFM的零样本特性使其能够在现实世界的机器人上轻松部署,如波士顿动力公司的Spot移动操作平台。

  • 在Spot上部署的VLFM展示了其在现实世界办公楼中高效导航到目标对象的能力,无需对环境的先验知识。

  • VLFM的成就显示了视觉语言模型在语义导航领域的巨大潜力。

➡️

继续阅读