本研究探讨视觉语言导航任务,分为四个子模块,利用大型语言模型和视觉语言模型进行零射门设置。提出一种新方法,通过动态规划计算全景序列与地标名称序列的对齐分数,在R2R-Habitat数据集上表现优异。
完成下面两步后,将自动完成登录并继续当前操作。