小红花·文摘

本研究提出了一种重写驱动的增强（RAM）范式，以解决视觉-语言导航（VLN）中的数据稀缺问题。通过重写人类注释的训练数据，直接生成未见的观察-指令对，显著提升了模型的泛化能力和在多种环境中的表现。