旅行:无训练的视觉与语言导航检索与对齐

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究探讨视觉语言导航任务,分为四个子模块,利用大型语言模型和视觉语言模型进行零射门设置。提出一种新方法,通过动态规划计算全景序列与地标名称序列的对齐分数,在R2R-Habitat数据集上表现优异。

🎯

关键要点

  • 本研究关注视觉语言导航(VLN)任务中的问题。
  • 将视觉语言导航任务分解为四个子模块。
  • 采用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。
  • 提出一种新方法,通过动态规划计算全景序列与地标名称序列之间的对齐分数。
  • 在R2R-Habitat数据集上表现优异,优于其他使用联合语义地图的方法。
➡️

继续阅读