LASER:具有状态空间探索的 LLM 代理用于 Web 导航

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新算法LGX,实现机器人导航到未探索环境中的目标对象。该算法利用大型语言模型将环境的语义上下文映射为机器人运动规划的连续输入,同时利用预训练的视觉语言接地模型进行目标检测。在RoboTHOR上实现了最新的零-shot目标导航结果,成功率比当前基线提高了超过27%。通过真实世界实验展示了LGX方法的优越性能,可有效导航和检测视觉上独特的对象。

🎯

关键要点

  • 提出了一种新算法 LGX,采用语言驱动、零-shot 方式进行机器人导航。

  • 算法利用大型语言模型将环境的语义上下文映射为机器人运动规划的输入。

  • 同时使用预训练的视觉语言接地模型进行目标对象检测。

  • 在 RoboTHOR 上实现了最新的零-shot 目标导航结果,成功率提高超过 27%。

  • 研究了利用大型语言模型进行机器人导航的用途,分析了影响模型输出的语义因素。

  • 通过真实世界实验展示了 LGX 方法的优越性能,能够有效导航和检测视觉上独特的对象。

➡️

继续阅读