Cog-GA:基于大型语言模型的生成代理,用于连续环境中的视觉语言导航

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该研究开发了一个语言引导的导航任务,通过执行低级动作来遵循自然语言导航方向,消除了以前关于环境的假设。研究发现,在连续三维环境中的性能明显较低,表明以前的导航-图形设定中的性能可能被过高评价了。

🎯

关键要点

  • 开发了一个语言引导的导航任务,放在一个连续的三维环境中。
  • 智能体必须执行低级动作来遵循自然语言导航方向。
  • 这一设定消除了以前关于环境的假设,包括已知环境拓扑、短程神谕导航和完美代理定位的假设。
  • 开发了一些模型来模拟以前的工作,并进行了单模态基线测试。
  • 在连续环境中的性能明显较低,表明以前的导航-图形设定中的性能可能被高估。
➡️

继续阅读