本研究提出了一种多层融合与推理架构(MFRA),旨在解决视觉与语言导航中的复杂多模态交互问题。MFRA通过层次化机制显著提高了代理在导航场景中的决策准确性,优于现有方法。
本研究提出了一种新方法,通过指令中的隐含子目标的视觉表征,提升视觉与语言导航代理在未知环境中的导航性能,显著提高成功率和成功比例。
本研究提出HA-VLN基准,旨在解决传统视觉与语言导航系统在动态多人体互动环境中的局限性。研究强调人类意识的整合,提出平衡离散与连续导航的标准化任务,并指出社会背景对提高导航成功率和减少碰撞的重要性。
本研究提出GSA-VLN任务,旨在提高视觉与语言导航的适应性。通过开发GSA-R2R数据集,增加环境和指令的多样性,并设计基于大语言模型的指令调整流程,以提升机器人在特定场景中的导航性能。
本研究提出全球一致性数据生成框架(WCGEN),旨在解决视觉与语言导航中的数据稀缺问题,提升代理在新环境中的泛化能力。实验结果表明,该方法在导航任务中取得了显著成果。
本文介绍了一种多模态变长记忆转换器(MTVM)方法,提升视觉和语言导航的性能。在R2R和CVDN数据集上的评估显示,成功率提高了2%,并减少了目标处理时间。此外,研究提出了具有身体感知的语言模型(VELMA),成功率提高了25%-30%。这些方法有效增强了导航能力和可解释性,为未来的导航研究提供了新方向。
本研究提出了一种优化机器人导航方向选择的视觉与语言导航模型。实验结果表明,该模型在多个数据集上超越了现有技术,展现出优异的性能和泛化能力。
本文介绍了多种基于知识增强推理模型的视觉与语言导航方法,提升了代理在自然语言指令下的导航能力。通过整合视觉、历史和指令特征,实验结果显示这些方法在多个数据集上表现优异,显著提高了导航的成功率和可解释性。
本文探讨了视觉与语言导航任务中的多模态对齐技术,提出了跨模态匹配、对比学习和因果学习框架等方法,以提升导航智能体的性能。研究表明,Transformer模型在跨模态理解上表现优越,并通过实验证明了新方法在不同环境中的有效性和泛化能力。
本文介绍了一种名为NavGPT的导航代理,基于大语言模型,能够执行视觉和语言导航任务。实验表明,NavGPT在复杂环境中具备出色的推理和规划能力,能够将指令分解为子目标并适应特殊情况。此外,研究还提出了多机器人合作导航框架Co-NavGPT和基于视频的导航模型NaVid,均在导航性能上优于现有模型,为未来导航研究奠定了基础。
完成下面两步后,将自动完成登录并继续当前操作。