💡
原文中文,约12900字,阅读约需31分钟。
📝
内容提要
本文介绍了InternVLA-N1,一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练,并在多个基准上验证了其有效性。
🎯
关键要点
- InternVLA-N1是一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力。
- 研究者构建了大规模数据集InternData-N1以支持模型训练,包含超过5300万条自视角图像观测和80万条语言指令。
- 模型的系统2设计为像素目标规划器,利用视觉语言模型(VLM)进行导航指令的解析和中期目标的预测。
- 系统1负责在真实环境中执行路径规划,能够应对动态障碍物的干扰。
- 作者引入了可学习的潜在token替换显式像素目标,以增强隐式规划参考的能力。
- InternVLA-N1在多个基准上验证了其有效性,超越了以往基于RGB的方法。
- 数据集InternData-N1由VLN-N1、VLN-CE和VLN-PE三个子集组成,具有互补特性。
- 系统1在无目标探索和点目标导航任务中表现出色,具备强大的避碰能力和高效的路径规划能力。
❓
延伸问答
InternVLA-N1模型的主要功能是什么?
InternVLA-N1是一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,能够在动态环境中执行路径规划。
InternData-N1数据集包含哪些内容?
InternData-N1数据集包含超过5300万条自视角图像观测和80万条语言指令,支持模型训练。
InternVLA-N1如何处理动态障碍物?
InternVLA-N1的系统1负责在真实环境中执行路径规划,能够灵活应对动态障碍物的干扰。
InternVLA-N1的系统2是如何工作的?
系统2设计为像素目标规划器,利用视觉语言模型解析导航指令并预测中期目标。
InternVLA-N1在基准测试中的表现如何?
InternVLA-N1在多个基准上验证了其有效性,超越了以往基于RGB的方法,成功率达55.4%。
如何增强InternVLA-N1的隐式规划能力?
作者引入可学习的潜在token替换显式像素目标,以增强隐式规划参考的能力。
🏷️
标签
➡️