本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。
本文介绍了InternVLA-N1,一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练,并在多个基准上验证了其有效性。
本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。通过重写人类注释的训练数据,直接生成未见的观察-指令对,显著提升了模型的泛化能力和在多种环境中的表现。
本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块,利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。通过动态规划计算全景序列与地标名称序列的对齐分数,在复杂的R2R-Habitat指令数据集上表现优于其他方法。
本研究提出了NAVCON,一个基于R2R和RxR数据集的大规模视觉语言导航语料库。研究引入了四个核心的认知和语言基础导航概念,并开发了生成自然语言导航指令的算法,评估了注释质量,对未来研究和应用具有重要意义。
本研究探讨了利用CLIP模型进行零样本视觉语言导航,结果表明其导航能力优于传统监督学习方法。提出的LGX算法及其他方法在不同数据集上显著提升了成功率,展示了大型语言模型在机器人导航中的潜力。此外,研究还提出了VoroNav和OpenFMNav等新方法,进一步提高了导航效率和成功率,强调了视觉语言模型在复杂环境中的应用价值。
本文研究了视觉-语言导航技术在物理机器人中的应用,提出多种方法提升机器人在未知环境中的表现。通过大规模仿真框架RoboCasa,结合语言指令和目标图像,显著提高了机器人的泛化能力和任务成功率。
本研究提出了一种多分支架构用于视觉-语言导航,通过多样化视觉输入提升模型的泛化性能。实验结果显示,该方法在多个基准测试中表现优异,显著超越现有最佳结果。此外,针对无人机导航的挑战,开发了OpenUAV平台和UAV-Need-Help基准,验证了新方法的有效性,但仍需缩小与人类操作员的差距。
研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。
本文介绍了一种用于视觉语言导航的预训练和微调范式,通过自监督学习训练图像-文本-动作三元组,提升导航性能。研究提出了子指令注意力、结构化状态演化模型和基于大型语言模型的生成代理Cog-GA等多种方法,解决了多模态理解和空间推理的挑战,显著提高了导航效率。
本文介绍了基于大语言模型的导航代理NavGPT,展示其在视觉和语言导航中的应用。NavGPT通过分解指令、整合常识知识和适应特殊情况,提升了导航能力和推理可解释性。同时,研究提出了导航思维链以改善自主导航决策性能,并开发了基于视频的视觉语言模型NaVid,以应对导航中的多种挑战。
本文综述了视觉-语言导航(VLN)的研究进展,分析了任务、评价指标和方法,强调了当前的局限性和未来机遇。研究探讨了如何通过自然语言进行有效导航,并提出了新的框架和方法,以提高导航能力和可解释性,特别是在不同环境中的应用。
本研究通过使用900个未标记的3D建筑自动创建VLN数据集,解决了数据稀缺性问题,显著提高了VLN模型的泛化能力。实验结果表明,该方法在REVERIE和SOON数据集上分别提高了7.1%和8.1%的SPL性能。此外,研究探讨了视觉-语言导航技术在物理机器人中的应用及提升未知环境表现的方法。
本文提出多种基于提示学习的方法,以提高视觉转换器(ViT)在领域泛化中的性能。通过无标签领域通用化框架和层次对比式视觉提示等技术,实验结果表明这些方法在医学图像分类和视觉语言导航任务中优于现有技术,显著提升了模型的泛化能力和准确性。
DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明,DAVIS在视觉语言导航中取得了最新的模型无关进展。
美团在CVPR 2023上发表了七篇论文,涉及多个领域的研究。其中一篇论文介绍了一种新的自适应区域划分方法,用于视觉-语言导航,取得了最优的性能。另一篇论文介绍了一种新的图文展示布局生成方法,已在美团App的外投首页广告制图等场景落地。美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,推动优秀人才培养。
完成下面两步后,将自动完成登录并继续当前操作。