GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

🎯

关键要点

  • GR00T N1.6是NVIDIA开发的视觉语言模型,支持灵活分辨率,改进了模型结构。

  • N1.6使用了数千小时的遥操作数据进行预训练,提升了机器人控制的精确性。

  • GR00T N1.7在N1.6的基础上增强了模型的泛化能力,采用相对末端执行器动作空间。

  • N1.7在2万小时的人类视频数据上进行预训练,能够将人类操作知识迁移到机器人控制中。

  • N1.7引入了新的VLM主干模型Cosmos-Reason2-2B,简化了数据处理流程。

  • GR00T N1.7支持全身人形控制,通过UNITREE_G1_SONIC实现精确的手部和足部定位。

🔎

延伸解读

GR00T N1.7的技术进步

GR00T N1.7在N1.6的基础上,采用了新的Cosmos-Reason2-2B主干模型,显著提升了模型的灵活性和处理效率。通过相对末端执行器动作空间的设计,N1.7能够更好地适应不同机器人形态,增强了泛化能力。这一技术进步使得机器人在复杂环境中的表现更加出色。

预训练数据的重要性

N1.7在2万小时的人类视频数据上进行预训练,这一过程为模型提供了丰富的操作知识,使其能够更有效地迁移人类的操作经验到机器人控制中。这样的预训练策略不仅提高了机器人的控制精度,也为未来的机器人应用提供了更广泛的可能性。

全身人形控制的应用

GR00T N1.7通过UNITREE_G1_SONIC实现了全身人形控制,能够精确控制机器人的手部和足部。这种控制方式使得机器人在执行复杂任务时,能够更好地协调各个关节的动作,提升了操作的灵活性和准确性,适用于多种实际应用场景。

延伸问答

GR00T N1.6和N1.7有什么主要区别?

GR00T N1.7在N1.6的基础上增强了模型的泛化能力,并在2万小时的人类视频数据上进行预训练,采用了新的VLM主干模型Cosmos-Reason2-2B。

GR00T N1.7如何提高机器人控制的精确性?

GR00T N1.7通过在2万小时的人类视频数据上进行预训练,能够将人类操作知识迁移到机器人控制中,从而提高精确性。

GR00T N1.7支持哪些控制功能?

GR00T N1.7支持全身人形控制,通过UNITREE_G1_SONIC实现精确的手部和足部定位。

GR00T N1.6的预训练数据来源是什么?

GR00T N1.6的预训练数据包括数千小时的遥操作数据,来自多种机器人和模拟环境。

如何为GR00T N1.7配置相对末端执行器动作空间?

可以参考GR00T N1.7的配置指南,设置相对末端执行器动作空间以提升模型的泛化能力。

GR00T N1.7的主要技术架构是什么?

GR00T N1.7采用了Cosmos-Reason2-2B架构,支持灵活分辨率并简化数据处理流程。

🏷️

标签

➡️

继续阅读