Uni-NaVid(NaVid升级版)——基于视频和指令规划动作：通过在线Token合并和前瞻性预测，试图一统4类导航任务

💡 原文中文，约8700字，阅读约需21分钟。

📝

内容提要

本文介绍了Uni-NaVid，一个基于视频的多任务具身导航模型。该模型结合RGB视频流和自然语言指令，能够高效生成导航动作，并通过在线token合并机制优化推理速度。Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等任务，研究表明其在真实环境中表现出色，具备良好的泛化能力和计算效率。

🎯

关键要点

Uni-NaVid是一种基于视频的多任务具身导航模型，结合RGB视频流和自然语言指令。
该模型能够高效生成导航动作，并通过在线token合并机制优化推理速度。
Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等任务，展现出良好的泛化能力和计算效率。
模型采用第一视角的RGB视频流和自然语言指令作为输入，能够直接为连续环境下的导航生成低层级动作。
Uni-NaVid通过在线token合并机制减少视觉token数量，从而加快模型推理速度。
该模型实现了5Hz的推理频率，适合在真实环境中部署非阻塞式导航机器人。

❓

延伸问答

Uni-NaVid模型的主要功能是什么？

Uni-NaVid是一种基于视频的多任务具身导航模型，能够结合RGB视频流和自然语言指令生成导航动作。

Uni-NaVid如何提高推理速度？

Uni-NaVid通过在线token合并机制减少视觉token数量，从而加快模型推理速度。

Uni-NaVid支持哪些类型的导航任务？

Uni-NaVid支持视觉与语言导航、目标物体导航、具身问答和人类跟随等四类导航任务。

Uni-NaVid的推理频率是多少？

Uni-NaVid实现了5Hz的推理频率，适合在真实环境中部署非阻塞式导航机器人。

Uni-NaVid是如何处理视频流的？

Uni-NaVid使用视觉编码器提取视频帧的视觉特征，并通过在线token合并机制处理这些特征。

Uni-NaVid的输入是什么？

Uni-NaVid的输入包括第一视角的RGB视频流和自然语言指令。

🏷️

继续阅读

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...