结构之法算法之道 ·

NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型：在VLM的导航规划下，执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

本文介绍了「七月在线」开发的NaVILA框架，旨在提升腿式机器人在视觉与语言导航中的能力。NaVILA将高级语言指令转化为中级动作，并结合低级运动策略，提高了导航效率。该框架利用真实视频数据训练，显著提升了机器人在复杂环境中的成功率，展现了广泛的应用潜力。

🎯

🔎

NaVILA框架通过将高级语言指令转化为中级动作，结合低级运动策略，显著提升了腿式机器人在复杂环境中的导航能力。这种分层结构不仅提高了导航效率，还增强了模型的泛化能力，使其能够适应多样化的环境和任务。

NaVILA的成功依赖于多样化的训练数据，包括真实人类视频和模拟数据。这种数据混合设计确保了模型在现实世界中的有效性和适应性，避免了对特定动作的过拟合，提升了模型的广泛泛化能力。

NaVILA框架采用双频率运行策略，允许高级指令以较低频率处理，而低级运动策略实时执行。这种设计提高了系统的稳健性，使机器人能够更有效地应对复杂的避障问题，确保在动态环境中的表现。

❓

NaVILA框架旨在提升腿式机器人在视觉与语言导航中的能力。

NaVILA将高级语言指令转化为中级动作，并结合低级运动策略来执行这些动作。

NaVILA框架利用真实视频数据进行训练，以提高机器人在复杂环境中的成功率。

NaVILA的优势包括低级执行与中级动作的分离、使用多样化数据源进行训练、以及双频率运行以提高稳健性。

NaVILA在现实世界中部署后，在25条指令上达到了88%的成功率。

NaVILA通过从人类视频中学习策略，结合真实世界数据进行训练，增强了导航能力。

🏷️