Uni-NaVid(NaVid升级版)——基于视频和指令规划动作:通过在线Token合并和前瞻性预测,试图一统4类导航任务

Uni-NaVid(NaVid升级版)——基于视频和指令规划动作:通过在线Token合并和前瞻性预测,试图一统4类导航任务

💡 原文中文,约8700字,阅读约需21分钟。
📝

内容提要

本文介绍了Uni-NaVid,一个基于视频的多任务具身导航模型。该模型结合RGB视频流和自然语言指令,能够高效生成导航动作,并通过在线token合并机制优化推理速度。Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等任务,研究表明其在真实环境中表现出色,具备良好的泛化能力和计算效率。

🎯

关键要点

  • Uni-NaVid是一种基于视频的多任务具身导航模型,结合RGB视频流和自然语言指令。
  • 该模型能够高效生成导航动作,并通过在线token合并机制优化推理速度。
  • Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等任务,展现出良好的泛化能力和计算效率。
  • 模型采用第一视角的RGB视频流和自然语言指令作为输入,能够直接为连续环境下的导航生成低层级动作。
  • Uni-NaVid通过在线token合并机制减少视觉token数量,从而加快模型推理速度。
  • 该模型实现了5Hz的推理频率,适合在真实环境中部署非阻塞式导航机器人。

延伸问答

Uni-NaVid模型的主要功能是什么?

Uni-NaVid是一种基于视频的多任务具身导航模型,能够结合RGB视频流和自然语言指令生成导航动作。

Uni-NaVid如何提高推理速度?

Uni-NaVid通过在线token合并机制减少视觉token数量,从而加快模型推理速度。

Uni-NaVid支持哪些类型的导航任务?

Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等四类导航任务。

Uni-NaVid的推理频率是多少?

Uni-NaVid实现了5Hz的推理频率,适合在真实环境中部署非阻塞式导航机器人。

Uni-NaVid是如何处理视频流的?

Uni-NaVid使用视觉编码器提取视频帧的视觉特征,并通过在线token合并机制处理这些特征。

Uni-NaVid的输入是什么?

Uni-NaVid的输入包括第一视角的RGB视频流和自然语言指令。

➡️

继续阅读