NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)

💡 原文中文,约6900字,阅读约需17分钟。
📝

内容提要

本文介绍了「七月在线」开发的NaVILA框架,旨在提升腿式机器人在视觉与语言导航中的能力。NaVILA将高级语言指令转化为中级动作,并结合低级运动策略,提高了导航效率。该框架利用真实视频数据训练,显著提升了机器人在复杂环境中的成功率,展现了广泛的应用潜力。

🎯

关键要点

  • 七月在线开发的NaVILA框架旨在提升腿式机器人在视觉与语言导航中的能力。
  • NaVILA将高级语言指令转化为中级动作,并结合低级运动策略,提高导航效率。
  • 该框架利用真实视频数据训练,显著提升机器人在复杂环境中的成功率。
  • NaVILA框架的优势包括低级执行与中级动作的分离、使用多样化数据源进行训练、双频率运行以提高稳健性。
  • VLA模型处理单视图图像生成中级动作指令,运动策略将其转化为精确的关节运动。
  • VILA框架通过三阶段训练过程,结合视觉编码器、投影器和大型语言模型(LLM)。
  • 从人类视频中学习的策略增强了导航能力,利用真实世界数据进行训练。
  • 监督微调数据混合设计从四个角度出发,确保模型的广泛泛化能力。
  • 训练和推理过程中使用正则表达式解析器提取动作类型及参数。
  • 基于视觉的端到端控制策略能够解释高级语言导航命令并转化为关节运动。

延伸问答

NaVILA框架的主要目标是什么?

NaVILA框架旨在提升腿式机器人在视觉与语言导航中的能力。

NaVILA如何将高级语言指令转化为机器人动作?

NaVILA将高级语言指令转化为中级动作,并结合低级运动策略来执行这些动作。

NaVILA框架的训练数据来源是什么?

NaVILA框架利用真实视频数据进行训练,以提高机器人在复杂环境中的成功率。

NaVILA框架的优势有哪些?

NaVILA的优势包括低级执行与中级动作的分离、使用多样化数据源进行训练、以及双频率运行以提高稳健性。

NaVILA在现实世界中的表现如何?

NaVILA在现实世界中部署后,在25条指令上达到了88%的成功率。

NaVILA框架是如何增强导航能力的?

NaVILA通过从人类视频中学习策略,结合真实世界数据进行训练,增强了导航能力。

➡️

继续阅读