NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步:无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)
💡
原文中文,约4900字,阅读约需12分钟。
📝
内容提要
本文介绍了NaVid,一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令,在连续环境中导航,无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型,实现高效的动作规划,展现出优越的泛化能力和鲁棒性,尤其在仿真到现实的应用中表现突出。
🎯
关键要点
- NaVid是一个用于视觉与语言导航的新模型,通过视频输入和自然语言指令进行导航。
- 该模型无需地图或深度信息,展现出优越的泛化能力和鲁棒性。
- NaVid结合了预训练的视觉编码器和大型语言模型,实现高效的动作规划。
- 该模型在仿真到现实的应用中表现突出,尤其在VLN-CER2R数据集上达到了当前最先进的性能。
- NaVid通过视频编码视觉观测,直接在连续环境中推导低层次可执行动作。
- 与传统的VLN模型相比,NaVid避免了依赖里程计数据、深度信息或地图的问题。
- 该模型的设计旨在促进通用知识向视觉语言导航任务的迁移,解决泛化难题。
- NaVid的架构包括视觉编码器、查询生成器、大型语言模型和跨模态投影器。
➡️