空间感知发言人用于视觉-语言导航指令生成
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一个精细度更高的注释,以便在自然语言指令下更好地完成环境中的导航。通过使用带有细致注释的Room-to-Room(R2R)基准数据集,并引入有效的子指令注意力和移位模块,实现了此子指令模块。与四个最新的代理基线模型进行比较,展示了该方法改进了所有四个代理的性能。
🎯
关键要点
- 提出了一个精细度更高的注释,以便在自然语言指令下更好地完成环境中的导航。
- 使用了带有细致注释的Room-to-Room(R2R)基准数据集。
- 引入了有效的子指令注意力和移位模块,在每个时间步选择并关注单个子指令。
- 与四个最新的代理基线模型进行了比较,展示了该方法改进了所有四个代理的性能。
➡️