离线强化学习在视觉和语言导航中的扩展

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一个新型导航框架,用于解决真实世界中的VLN任务。该框架包括语言指令解析器、视觉-语言映射器、定位器和本地控制器等关键组成部分。实验室环境评估显示,该框架在真实世界中表现优于现有的VLN基线。

🎯

关键要点

  • 提出了一个新型导航框架,用于解决真实世界中的VLN任务。
  • 框架包括四个关键组成部分:指令解析器、视觉-语言映射器、定位器和本地控制器。
  • 指令解析器将语言指令转换为预定义的宏操作描述。
  • 视觉-语言映射器构建实时的视觉-语言地图,保持对未知环境的理解。
  • 定位器将宏操作描述重新映射到地图上的路径点位置。
  • 本地控制器基于DD-PPO预测动作。
  • 在未知的实验室环境中评估,结果显示框架在真实世界中优于现有的VLN基线。
➡️

继续阅读