GR00T N1——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

英伟达发布的GR00T N1模型结合视觉与语言指令,通过双系统架构实现机器人动作生成。该模型利用真实与合成数据进行训练,采用Eagle-2 VLM作为推理模块,DiT模块用于高频动作输出。团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。

🎯

关键要点

  • 英伟达发布的GR00T N1模型结合视觉与语言指令,采用双系统架构实现机器人动作生成。
  • 模型利用真实与合成数据进行训练,Eagle-2 VLM作为推理模块,DiT模块用于高频动作输出。
  • 团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。
  • GR00T N1模型的训练数据分为三类:真实机器人轨迹数据、合成生成数据和网络数据。
  • 模型通过统一数据金字塔中的所有数据源,构建一致的数据集,输入包括机器人状态、视觉观察和语言指令。
  • GR00T N1模型包含视觉-语言骨干网络(VLM)和基于DiT的动作模块。
  • VLM使用NVIDIA Eagle-2,处理语言和图像输入,支持多任务语言条件策略。
  • 动作模块通过去噪采样生成电机动作,处理不同机器人结构的状态和动作。
  • 视觉-语言模块使用Eagle-2 VLM进行编码,图像以224×224分辨率进行处理。
  • 扩散transformer-DiT模块通过自适应层归一化进行去噪,结合交叉注意力和自注意力模块。

延伸问答

GR00T N1模型的主要功能是什么?

GR00T N1模型结合视觉与语言指令,通过双系统架构实现机器人动作生成。

GR00T N1模型是如何进行训练的?

模型利用真实与合成数据进行训练,数据分为真实机器人轨迹、合成生成数据和网络数据。

Eagle-2 VLM在GR00T N1中扮演什么角色?

Eagle-2 VLM作为推理模块,处理语言和图像输入,支持多任务语言条件策略。

GR00T N1模型的动作模块是如何工作的?

动作模块通过去噪采样生成电机动作,处理不同机器人结构的状态和动作。

英伟达在上海的团队计划是什么?

团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。

GR00T N1模型的输入数据包括哪些内容?

输入包括机器人状态、视觉观察和语言指令。

➡️

继续阅读