SG-Nav:基于LLM的零-shot对象导航的在线3D场景图提示
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现有零-shot对象导航方法在空间上下文不足的问题。通过提出3D场景图的表示方法,研究设计了层次化的思考链提示,帮助LLM根据场景上下文推理目标位置,并引入再感知机制来纠正感知错误。 SG-Nav在多个基准上超越了之前的最先进方法,展示了更高的性能和可解释的决策过程。
本文介绍了一种新算法LGX,利用语言驱动的零样本方法帮助机器人在未知环境中导航。通过大型语言模型将环境语义转化为导航决策,并结合视觉语言模型进行目标检测。在RoboTHOR平台上,LGX的成功率比现有方法提高了27%。研究还分析了影响模型输出的语义因素,展示了LGX在导航和检测独特对象方面的优越性能。