旅行:无训练的视觉与语言导航检索与对齐
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块,利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。通过动态规划计算全景序列与地标名称序列的对齐分数,在复杂的R2R-Habitat指令数据集上表现优于其他方法。
🎯
关键要点
- 本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块。
- 该方法利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。
- 通过动态规划计算全景序列与地标名称序列的对齐分数。
- 在复杂的R2R-Habitat指令数据集上,该方法表现优于其他使用联合语义地图的方法。
➡️