本文介绍了Uni-NaVid,一个基于视频的多任务具身导航模型。该模型结合RGB视频流和自然语言指令,能够高效生成导航动作,并通过在线token合并机制优化推理速度。Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等任务,研究表明其在真实环境中表现出色,具备良好的泛化能力和计算效率。
本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid,旨在克服现有导航模型的局限性,实现多种导航任务的无缝执行。实验结果表明,Uni-NaVid在多个基准测试中表现优异,具备良好的通用性。
完成下面两步后,将自动完成登录并继续当前操作。