小红花·文摘

本文探讨了视觉与语言导航（VLN）任务中的多模态对齐技术，提出了基于全注意力机制的架构、预训练模型和新训练范式LEO等多种方法，以提升导航性能。研究表明，这些方法在不同数据集上显著提高了成功率，推动了VLN技术的发展。