无需训练的数据下的视觉语言模型推理物体导航

该研究解决了传统物体导航方法在未知环境中的泛化能力不足和数据需求大的问题。通过引入语言驱动的无监督物体导航(L-ZSON)和新颖的视觉语言模型树状推理网络(VLTNet)，该方法创新性地使用树状推理框架进行导航前沿选择，显著提高了决策的准确性。实验结果表明，该模型在处理复杂自然语言指令的导航任务中表现卓越。

本文介绍了一种零样本导航方法——视觉语言前沿地图（VLFM），能够在新环境中识别目标对象。VLFM通过深度观测构建地图，并利用视觉语言模型生成价值地图，在多个数据集上取得了优异的结果，并在波士顿动力公司的Spot机器人上实现了高效导航。