本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。
本文介绍了InternVLA-N1,一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练,并在多个基准上验证了其有效性。
本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。通过重写人类注释的训练数据,直接生成未见的观察-指令对,显著提升了模型的泛化能力和在多种环境中的表现。
本研究探讨视觉语言导航任务,分为四个子模块,利用大型语言模型和视觉语言模型进行零射门设置。提出一种新方法,通过动态规划计算全景序列与地标名称序列的对齐分数,在R2R-Habitat数据集上表现优异。
研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。
本研究提出了一种多分支架构(MBA),旨在改善视觉-语言导航中的自主导航挑战。实验证明,该方法在多个基准测试中表现优异,超过了现有最佳结果。
这篇综述回顾了视觉-语言导航(VLN)的研究进展,介绍了系统架构、研究方法和数据集,并分析了当前面临的问题和挑战,探讨了未来发展方向。
LLM基础代理在视觉语言导航(VLN)任务中展示了零射击性能。通过AO-Planner框架,实现了适应性导航的运动规划和动作决策制定。在R2R-CE基准测试中取得了最先进的零射击性能(SPL提高了5.5%)。
该综述回顾了视觉-语言导航(VLN)的研究进展,介绍了系统架构、基于方法的研究和常用基准数据集,并分析了当前研究面临的问题和挑战。同时,探讨了该领域的未来发展方向。
本文提出了一套方法来解决视觉语言导航任务中的问题,通过维护拓扑地图和引入导航思维链模块来增强导航能力,建立了一个提高大型语言模型导航能力和解释性的流水线。实验证明该方法有效。
DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明,DAVIS在视觉语言导航中取得了最新的模型无关进展。
美团在CVPR 2023上发表了七篇论文,涉及多个领域的研究。其中一篇论文介绍了一种新的自适应区域划分方法,用于视觉-语言导航,取得了最优的性能。另一篇论文介绍了一种新的图文展示布局生成方法,已在美团App的外投首页广告制图等场景落地。美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,推动优秀人才培养。
完成下面两步后,将自动完成登录并继续当前操作。