机器人任务规划的视觉语言解释器

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一个新的导航框架,用于在真实世界中解决VLN任务。该框架包括四个关键组成部分,能够将语言指令转换为宏操作描述、构建实时的视觉-语言地图、基于语言索引的定位器以及基于DD-PPO的本地控制器。作者在实验室环境中使用Interbotix LoCoBot WX250对该流程进行了评估,并发现该流程优于SOTA VLN基线。

🎯

关键要点

  • 提出了一个新的导航框架,用于在真实世界中解决VLN任务。
  • 框架包括四个关键组成部分:1) LLMs-based指令解析器,2) 在线视觉-语言映射器,3) 基于语言索引的定位器,4) 基于DD-PPO的本地控制器。
  • 该框架能够将语言指令转换为宏操作描述,构建实时的视觉-语言地图,重新映射宏操作描述到路径点位置,并预测动作。
  • 在未知的实验室环境中使用Interbotix LoCoBot WX250进行评估,结果显示该流程优于SOTA VLN基线。
➡️

继续阅读