GR00T N1——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练
💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
英伟达发布的GR00T N1模型结合视觉与语言指令,通过双系统架构实现机器人动作生成。该模型利用真实与合成数据进行训练,采用Eagle-2 VLM作为推理模块,DiT模块用于高频动作输出。团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。
🎯
关键要点
- 英伟达发布的GR00T N1模型结合视觉与语言指令,采用双系统架构实现机器人动作生成。
- 模型利用真实与合成数据进行训练,Eagle-2 VLM作为推理模块,DiT模块用于高频动作输出。
- 团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。
- GR00T N1模型的训练数据分为三类:真实机器人轨迹数据、合成生成数据和网络数据。
- 模型通过统一数据金字塔中的所有数据源,构建一致的数据集,输入包括机器人状态、视觉观察和语言指令。
- GR00T N1模型包含视觉-语言骨干网络(VLM)和基于DiT的动作模块。
- VLM使用NVIDIA Eagle-2,处理语言和图像输入,支持多任务语言条件策略。
- 动作模块通过去噪采样生成电机动作,处理不同机器人结构的状态和动作。
- 视觉-语言模块使用Eagle-2 VLM进行编码,图像以224×224分辨率进行处理。
- 扩散transformer-DiT模块通过自适应层归一化进行去噪,结合交叉注意力和自注意力模块。
❓
延伸问答
GR00T N1模型的主要功能是什么?
GR00T N1模型结合视觉与语言指令,通过双系统架构实现机器人动作生成。
GR00T N1模型是如何进行训练的?
模型利用真实与合成数据进行训练,数据分为真实机器人轨迹、合成生成数据和网络数据。
Eagle-2 VLM在GR00T N1中扮演什么角色?
Eagle-2 VLM作为推理模块,处理语言和图像输入,支持多任务语言条件策略。
GR00T N1模型的动作模块是如何工作的?
动作模块通过去噪采样生成电机动作,处理不同机器人结构的状态和动作。
英伟达在上海的团队计划是什么?
团队计划在上海建立具身算法开发团队,招聘经验丰富的开发者和实习生。
GR00T N1模型的输入数据包括哪些内容?
输入包括机器人状态、视觉观察和语言指令。
➡️