旅行:无训练的视觉与语言导航检索与对齐

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块,利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。通过动态规划计算全景序列与地标名称序列的对齐分数,在复杂的R2R-Habitat指令数据集上表现优于其他方法。

🎯

关键要点

  • 本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块。
  • 该方法利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。
  • 通过动态规划计算全景序列与地标名称序列的对齐分数。
  • 在复杂的R2R-Habitat指令数据集上,该方法表现优于其他使用联合语义地图的方法。
➡️

继续阅读