本研究提出了一种新的SUSA架构,旨在解决智能体在未知环境中基于自然语言指令的视觉与语言导航(VLN)中的导航困难。该架构通过生成环境地标描述和构建深度探索地图,显著提升了导航性能。
本文提出了一种基于变换器的分层方法,旨在解决离线强化学习中的价值估计误差,简化低级策略训练,并显著提升复杂导航环境中的性能。
本文提出了一种新方法,通过有限状态机逐步学习未知环境的抽象模型,智能体利用该模型进行目标导航,研究表明此方法能提升导航性能。
NaVid是一个基于视频的大型视觉语言模型,通过动态的视频流输入,实现了最先进水平的导航性能。它解决了里程计噪声和模拟环境到真实环境之间的缺陷,并有效地利用机器人的历史观察作为决策和指令遵循的时空背景。
完成下面两步后,将自动完成登录并继续当前操作。