DELAN: 视觉与语言导航的双层对齐：跨模态对比学习

通过交叉模态对比学习，我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架，用于在融合之前对齐各种与导航相关的模态，从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成，显著提高了各种 Vision-and-Language navigation 审查的导航性能。

提出了一种基于因果学习范式的统一框架CausalVLN，通过建立关于视觉和语言的结构因果模型(SCM)的合理假设，并引入视觉和语言门路因果编码器，在训练和验证期间实现无偏特征表达，增强了智能体在不同环境中的泛化能力，并在三个VLN数据集上的实验证明了该方法的优越性和显著缩小了在已知和未知环境之间的性能差距。