结构之法算法之道 ·

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步：无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

本文介绍了NaVid，一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令，在连续环境中导航，无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型，实现高效的动作规划，展现出优越的泛化能力和鲁棒性，尤其在仿真到现实的应用中表现突出。

🎯

🔎

NaVid作为一种新型视觉与语言导航模型，首次实现了在无需地图、里程计或深度信息的情况下进行导航。这一创新使得模型在复杂和未见过的环境中表现出色，尤其适用于现实世界的应用场景。通过视频输入，NaVid能够直接推导出低层次可执行动作，展现出更高的灵活性和适应性。

与传统的视觉语言导航模型相比，NaVid避免了依赖里程计数据和深度信息的问题。这种设计不仅降低了模型的复杂性，还提高了其在不同环境中的泛化能力。通过直接使用RGB视频作为输入，NaVid能够更好地应对现实环境中的不确定性，展现出更强的鲁棒性。

在视觉与语言导航领域，泛化能力是一个关键挑战。NaVid通过利用预训练的视觉编码器和大型语言模型，成功地将通用知识迁移到具体的导航任务中。这种方法不仅提升了模型的学习效率，也为未来的研究提供了新的思路，尤其是在仿真到现实的应用中。

❓

NaVid模型用于视觉与语言导航，通过视频输入和自然语言指令在连续环境中进行导航，无需地图或深度信息。

NaVid避免了依赖里程计数据、深度信息或地图的问题，展现出更好的泛化能力和鲁棒性。

NaVid通过视频编码视觉观测，直接推导低层次可执行动作，利用预训练的视觉编码器进行处理。

NaVid在仿真到现实的应用中展现出卓越的鲁棒性，在多个室内场景中成功率约为66%。

NaVid的架构包括视觉编码器、查询生成器、大型语言模型和跨模态投影器。

NaVid通过将通用知识迁移到视觉语言导航任务中，利用预训练的模型来提升泛化能力，解决了在新环境中的泛化挑战。

🏷️