旅行:无训练的视觉与语言导航检索与对齐
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究探讨视觉语言导航任务,分为四个子模块,利用大型语言模型和视觉语言模型进行零射门设置。提出一种新方法,通过动态规划计算全景序列与地标名称序列的对齐分数,在R2R-Habitat数据集上表现优异。
🎯
关键要点
- 本研究关注视觉语言导航(VLN)任务中的问题。
- 将视觉语言导航任务分解为四个子模块。
- 采用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。
- 提出一种新方法,通过动态规划计算全景序列与地标名称序列之间的对齐分数。
- 在R2R-Habitat数据集上表现优异,优于其他使用联合语义地图的方法。
🏷️
标签
➡️