DELAN: 视觉与语言导航的双层对齐:跨模态对比学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

提出了一种基于因果学习范式的统一框架CausalVLN,通过建立关于视觉和语言的结构因果模型(SCM)的合理假设,并引入视觉和语言门路因果编码器,在训练和验证期间实现无偏特征表达,增强了智能体在不同环境中的泛化能力,并在三个VLN数据集上的实验证明了该方法的优越性和显著缩小了在已知和未知环境之间的性能差距。

🎯

关键要点

  • 提出了一种基于因果学习范式的统一框架 CausalVLN。
  • 建立了关于视觉和语言的结构因果模型 (SCM) 的合理假设。
  • 引入视觉和语言门路因果编码器,实现无偏特征表达。
  • 增强了智能体在不同环境中的泛化能力。
  • 在三个 VLN 数据集上的实验证明了该方法的优越性。
  • 显著缩小了在已知和未知环境之间的性能差距。
➡️

继续阅读