LASER:具有状态空间探索的 LLM 代理用于 Web 导航
原文中文,约400字,阅读约需1分钟。发表于: 。大语言模型在网页导航等交互决策任务中已成功应用,我们提出了一种基于状态空间探索的交互式任务建模方法,通过动作与状态转换来完成任务,实现了灵活的回溯以提高性能。实验结果表明,我们的 LASER 代理在网页导航任务中明显优于以往的方法,并且与人类表现之间的差距缩小。
本文介绍了一种新算法LGX,实现机器人导航到未探索环境中的目标对象。该算法利用大型语言模型将环境的语义上下文映射为机器人运动规划的连续输入,同时利用预训练的视觉语言接地模型进行目标检测。在RoboTHOR上实现了最新的零-shot目标导航结果,成功率比当前基线提高了超过27%。通过真实世界实验展示了LGX方法的优越性能,可有效导航和检测视觉上独特的对象。