空间感知发言人用于视觉-语言导航指令生成

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一个精细度更高的注释,以便在自然语言指令下更好地完成环境中的导航。通过使用带有细致注释的Room-to-Room(R2R)基准数据集,并引入有效的子指令注意力和移位模块,实现了此子指令模块。与四个最新的代理基线模型进行比较,展示了该方法改进了所有四个代理的性能。

🎯

关键要点

  • 提出了一个精细度更高的注释,以便在自然语言指令下更好地完成环境中的导航。
  • 使用了带有细致注释的Room-to-Room(R2R)基准数据集。
  • 引入了有效的子指令注意力和移位模块,在每个时间步选择并关注单个子指令。
  • 与四个最新的代理基线模型进行了比较,展示了该方法改进了所有四个代理的性能。
➡️

继续阅读