InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)

InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)

💡 原文中文,约12900字,阅读约需31分钟。
📝

内容提要

本文介绍了InternVLA-N1,一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练,并在多个基准上验证了其有效性。

🎯

关键要点

  • InternVLA-N1是一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力。
  • 研究者构建了大规模数据集InternData-N1以支持模型训练,包含超过5300万条自视角图像观测和80万条语言指令。
  • 模型的系统2设计为像素目标规划器,利用视觉语言模型(VLM)进行导航指令的解析和中期目标的预测。
  • 系统1负责在真实环境中执行路径规划,能够应对动态障碍物的干扰。
  • 作者引入了可学习的潜在token替换显式像素目标,以增强隐式规划参考的能力。
  • InternVLA-N1在多个基准上验证了其有效性,超越了以往基于RGB的方法。
  • 数据集InternData-N1由VLN-N1、VLN-CE和VLN-PE三个子集组成,具有互补特性。
  • 系统1在无目标探索和点目标导航任务中表现出色,具备强大的避碰能力和高效的路径规划能力。

延伸问答

InternVLA-N1模型的主要功能是什么?

InternVLA-N1是一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,能够在动态环境中执行路径规划。

InternData-N1数据集包含哪些内容?

InternData-N1数据集包含超过5300万条自视角图像观测和80万条语言指令,支持模型训练。

InternVLA-N1如何处理动态障碍物?

InternVLA-N1的系统1负责在真实环境中执行路径规划,能够灵活应对动态障碍物的干扰。

InternVLA-N1的系统2是如何工作的?

系统2设计为像素目标规划器,利用视觉语言模型解析导航指令并预测中期目标。

InternVLA-N1在基准测试中的表现如何?

InternVLA-N1在多个基准上验证了其有效性,超越了以往基于RGB的方法,成功率达55.4%。

如何增强InternVLA-N1的隐式规划能力?

作者引入可学习的潜在token替换显式像素目标,以增强隐式规划参考的能力。

➡️

继续阅读