本文介绍了Uni-NaVid,一个基于视频的多任务具身导航模型。该模型结合RGB视频流和自然语言指令,能够高效生成导航动作,并通过在线token合并机制优化推理速度。Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等任务,研究表明其在真实环境中表现出色,具备良好的泛化能力和计算效率。
本研究提出ATLASv2系统,旨在解决边缘设备自主系统的资源限制和实时处理需求,通过结合TinyLLM、物体检测和路径规划,实现高效的多任务导航,测试结果显示成功率高。
完成下面两步后,将自动完成登录并继续当前操作。