本研究提出了一种多层融合与推理架构(MFRA),旨在解决视觉与语言导航中的复杂多模态交互问题。MFRA通过层次化机制显著提高了代理在导航场景中的决策准确性,优于现有方法。
本研究提出了一种新方法,通过指令中的隐含子目标的视觉表征,提升视觉与语言导航代理在未知环境中的导航性能,显著提高成功率和成功比例。
本研究提出HA-VLN基准,旨在解决传统视觉与语言导航系统在动态多人体互动环境中的局限性。研究强调人类意识的整合,提出平衡离散与连续导航的标准化任务,并指出社会背景对提高导航成功率和减少碰撞的重要性。
本研究提出全球一致性数据生成框架(WCGEN),旨在解决视觉与语言导航中的数据稀缺问题,提升代理在新环境中的泛化能力。实验结果表明,该方法在导航任务中取得了显著成果。
本研究提出NavAgent模型,旨在解决户外城市场景中的视觉与语言导航挑战,通过图卷积网络整合多尺度环境信息,提升无人机导航能力。
该研究提出了基于三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并通过分层决策、模块化训练和分离推理和模仿的策略成功解决了这一新任务。研究者使用HCM代理展示了比现有基线效果更好的结果,为Robo-VLN创造了新的基准。
完成下面两步后,将自动完成登录并继续当前操作。