InternVLA-N1——规划-执行双系统下的VLN基础模型：具备学习型的潜在规划能力，可部署在轮式、四足、双足人形上(含我司复现实践)

💡 原文中文，约12900字，阅读约需31分钟。

📝

内容提要

本文介绍了InternVLA-N1，一个结合视觉和语言指令的双系统导航模型，具备学习型潜在规划能力，提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练，并在多个基准上验证了其有效性。

🎯

关键要点

InternVLA-N1是一个结合视觉和语言指令的双系统导航模型，具备学习型潜在规划能力。
研究者构建了大规模数据集InternData-N1以支持模型训练，包含超过5300万条自视角图像观测和80万条语言指令。
模型的系统2设计为像素目标规划器，利用视觉语言模型（VLM）进行导航指令的解析和中期目标的预测。
系统1负责在真实环境中执行路径规划，能够应对动态障碍物的干扰。
作者引入了可学习的潜在token替换显式像素目标，以增强隐式规划参考的能力。
InternVLA-N1在多个基准上验证了其有效性，超越了以往基于RGB的方法。
数据集InternData-N1由VLN-N1、VLN-CE和VLN-PE三个子集组成，具有互补特性。
系统1在无目标探索和点目标导航任务中表现出色，具备强大的避碰能力和高效的路径规划能力。

❓

延伸问答

InternVLA-N1模型的主要功能是什么？

InternVLA-N1是一个结合视觉和语言指令的双系统导航模型，具备学习型潜在规划能力，能够在动态环境中执行路径规划。

InternData-N1数据集包含哪些内容？

InternData-N1数据集包含超过5300万条自视角图像观测和80万条语言指令，支持模型训练。

InternVLA-N1如何处理动态障碍物？

InternVLA-N1的系统1负责在真实环境中执行路径规划，能够灵活应对动态障碍物的干扰。

InternVLA-N1的系统2是如何工作的？

系统2设计为像素目标规划器，利用视觉语言模型解析导航指令并预测中期目标。

InternVLA-N1在基准测试中的表现如何？

InternVLA-N1在多个基准上验证了其有效性，超越了以往基于RGB的方法，成功率达55.4%。

如何增强InternVLA-N1的隐式规划能力？

作者引入可学习的潜在token替换显式像素目标，以增强隐式规划参考的能力。

🏷️

继续阅读

刚刚，全球⾸个“事件级预测”具身智能世界模型来了！
自变量机器人团队发布了全球首个事件级预测模型WALL-WM，旨在提升机器人理解和执行动作的能力。该模型通过将预测单位从时间帧转为语义事件，使机器人更灵活地...
Salesforce工程团队Claude Code转型实践
Salesforce工程团队通过全面采用Claude Code AI智能体，显著提升了开发效率和代码质量。迁移项目从231人天缩短至13天，Bug数量减少...
为什么你的深度学习模型无法学习：诊断医学成像中的数据问题
本文讨论了使用MONAI构建医学图像分割深度学习管道的经验，强调在调优模型前需理解数据集的质量和分布，尤其在医学成像中。建议在项目初期进行数据评估，以提高...
人工智能生成代码的速度超过了安全防护的应对能力
Snyk推出了Evo连续进攻安全（COS），旨在帮助企业在AI生成代码时代发现和修复漏洞。该产品提供持续的渗透测试，能够快速识别传统工具难以捕捉的AI特定...
对抗 Agent 遗忘：Kollab 基于Amazon Bedrock AgentCore 的团队AI工作空间实践
Kollab 是一个团队共享的 AI 工作空间，结合 Amazon Bedrock AgentCore 和 S3 构建持久化工作环境。它通过近千个 Con...
从「吸引子引导工程」看我的「一人公司」实践
文章探讨了“吸引子引导工程”（AGE）在个人公司实践中的应用，强调与AI协作时的常见问题，如代码审查和知识沉淀。作者认为，AGE可以通过建立稳定的系统结构...