结构之法算法之道 ·

GR00T N1——英伟达开源的通用人形VLA：VLM Eagle-2慢思考、DiT快反应，且可类似LAPA利用海量的无标注视频做训练

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

英伟达发布的GR00T N1模型结合视觉与语言指令，通过双系统架构实现机器人动作生成。该模型利用真实与合成数据进行训练，采用Eagle-2 VLM作为推理模块，DiT模块用于高频动作输出。团队计划在上海建立具身算法开发团队，招聘经验丰富的开发者和实习生。

🎯

🔎

GR00T N1模型采用双系统架构，分别为VLM和DiT模块。这种设计使得模型能够在处理复杂的视觉和语言指令时，既能进行深度推理，又能实现高频率的动作输出。这种灵活性为机器人在动态环境中的应用提供了更大的可能性，尤其是在需要快速反应的场景中。

GR00T N1模型通过整合真实机器人轨迹、合成生成数据和网络数据，构建了一个统一的数据金字塔。这种方法不仅提高了模型的训练效率，还增强了其在真实环境中的适应能力。尤其是利用无标签数据进行训练，能够有效扩展模型的应用范围，降低对标注数据的依赖。

英伟达计划在上海建立具身算法开发团队，显示出对具身智能领域人才的迫切需求。随着行业对具身算法的关注增加，具备相关经验的开发者将面临更多机会。对于求职者而言，掌握模仿学习、强化学习等技能将是提升竞争力的关键。

❓

GR00T N1模型结合视觉与语言指令，通过双系统架构实现机器人动作生成。

模型利用真实与合成数据进行训练，数据分为真实机器人轨迹、合成生成数据和网络数据。

Eagle-2 VLM作为推理模块，处理语言和图像输入，支持多任务语言条件策略。

动作模块通过去噪采样生成电机动作，处理不同机器人结构的状态和动作。

团队计划在上海建立具身算法开发团队，招聘经验丰富的开发者和实习生。

输入包括机器人状态、视觉观察和语言指令。

🏷️