本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。通过重写人类注释的训练数据,直接生成未见的观察-指令对,显著提升了模型的泛化能力和在多种环境中的表现。
完成下面两步后,将自动完成登录并继续当前操作。