本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块,利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。通过动态规划计算全景序列与地标名称序列的对齐分数,在复杂的R2R-Habitat指令数据集上表现优于其他方法。
本研究提出了NAVCON,一个基于R2R和RxR数据集的大规模视觉语言导航语料库。研究引入了四个核心的认知和语言基础导航概念,并开发了生成自然语言导航指令的算法,评估了注释质量,对未来研究和应用具有重要意义。
本研究探讨了利用CLIP模型进行零样本视觉语言导航,结果表明其导航能力优于传统监督学习方法。提出的LGX算法及其他方法在不同数据集上显著提升了成功率,展示了大型语言模型在机器人导航中的潜力。此外,研究还提出了VoroNav和OpenFMNav等新方法,进一步提高了导航效率和成功率,强调了视觉语言模型在复杂环境中的应用价值。
本文介绍了一种用于视觉语言导航的预训练和微调范式,通过自监督学习训练图像-文本-动作三元组,提升导航性能。研究提出了子指令注意力、结构化状态演化模型和基于大型语言模型的生成代理Cog-GA等多种方法,解决了多模态理解和空间推理的挑战,显著提高了导航效率。
本文介绍了基于大语言模型的导航代理NavGPT,展示其在视觉和语言导航中的应用。NavGPT通过分解指令、整合常识知识和适应特殊情况,提升了导航能力和推理可解释性。同时,研究提出了导航思维链以改善自主导航决策性能,并开发了基于视频的视觉语言模型NaVid,以应对导航中的多种挑战。
本文提出多种基于提示学习的方法,以提高视觉转换器(ViT)在领域泛化中的性能。通过无标签领域通用化框架和层次对比式视觉提示等技术,实验结果表明这些方法在医学图像分类和视觉语言导航任务中优于现有技术,显著提升了模型的泛化能力和准确性。
DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明,DAVIS在视觉语言导航中取得了最新的模型无关进展。
完成下面两步后,将自动完成登录并继续当前操作。