SG-Nav：基于LLM的零-shot对象导航的在线3D场景图提示

本研究解决了现有零-shot对象导航方法在空间上下文不足的问题。通过提出3D场景图的表示方法，研究设计了层次化的思考链提示，帮助LLM根据场景上下文推理目标位置，并引入再感知机制来纠正感知错误。 SG-Nav在多个基准上超越了之前的最先进方法，展示了更高的性能和可解释的决策过程。

本文介绍了一种新算法LGX，利用语言驱动的零样本方法帮助机器人在未知环境中导航。通过大型语言模型将环境语义转化为导航决策，并结合视觉语言模型进行目标检测。在RoboTHOR平台上，LGX的成功率比现有方法提高了27%。研究还分析了影响模型输出的语义因素，展示了LGX在导航和检测独特对象方面的优越性能。

LGX RoboTHOR llm 导航目标检测语言模型