小红花·文摘 - 小红花技术领袖俱乐部

$Uni-NaVid(NaVid升级版)——基于视频和指令规划动作：通过在线Token合并和前瞻性预测，试图一统4类导航任务$

Uni-NaVid(NaVid升级版)——基于视频和指令规划动作：通过在线Token合并和前瞻性预测，试图一统4类导航任务

结构之法算法之道 ·

本文介绍了NaVid，一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令，在连续环境中导航，无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型，实现高效的动作规划，展现出优越的泛化能力和鲁棒性，尤其在仿真到现实的应用中表现突出。

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步：无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)

结构之法算法之道 ·

本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid，旨在克服现有导航模型的局限性，实现多种导航任务的无缝执行。实验结果表明，Uni-NaVid在多个基准测试中表现优异，具备良好的通用性。

Uni-NaVid: A Video-Based Vision-Language-Action Model for Unifying Embodied Navigation Tasks

BriefGPT - AI 论文速递 ·