本文探讨了视觉与语言导航(VLN)任务中的多模态对齐技术,提出了基于全注意力机制的架构、预训练模型和新训练范式LEO等多种方法,以提升导航性能。研究表明,这些方法在不同数据集上显著提高了成功率,推动了VLN技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。