NaVid是一个基于视频的大型视觉语言模型,通过动态的视频流输入,实现了最先进水平的导航性能。它解决了里程计噪声和模拟环境到真实环境之间的缺陷,并有效地利用机器人的历史观察作为决策和指令遵循的时空背景。
完成下面两步后,将自动完成登录并继续当前操作。