From Seen to Unseen: Enhancing Vision-Language Navigation by Rewriting Observation-Instruction Using Foundation Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。通过重写人类注释的训练数据,直接生成未见的观察-指令对,显著提升了模型的泛化能力和在多种环境中的表现。

🎯

关键要点

  • 本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。
  • 通过重写人类注释的训练数据,直接生成未见的观察-指令对。
  • 该方法显著提升了模型的泛化能力。
  • 实验证明该方法在多种环境中的表现优越。
➡️

继续阅读