结构之法算法之道 ·

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型（VLM），用于机器人控制。N1.6改进了模型结构，支持灵活分辨率，并引入新数据集；N1.7在此基础上增强了模型的泛化能力，并在大量人类视频数据上进行预训练，提高了机器人控制的精确性和效率。

🎯

🔎

GR00T N1.7在N1.6的基础上，采用了新的Cosmos-Reason2-2B主干模型，显著提升了模型的灵活性和处理效率。通过相对末端执行器动作空间的设计，N1.7能够更好地适应不同机器人形态，增强了泛化能力。这一技术进步使得机器人在复杂环境中的表现更加出色。

N1.7在2万小时的人类视频数据上进行预训练，这一过程为模型提供了丰富的操作知识，使其能够更有效地迁移人类的操作经验到机器人控制中。这样的预训练策略不仅提高了机器人的控制精度，也为未来的机器人应用提供了更广泛的可能性。

GR00T N1.7通过UNITREE_G1_SONIC实现了全身人形控制，能够精确控制机器人的手部和足部。这种控制方式使得机器人在执行复杂任务时，能够更好地协调各个关节的动作，提升了操作的灵活性和准确性，适用于多种实际应用场景。

❓

GR00T N1.7在N1.6的基础上增强了模型的泛化能力，并在2万小时的人类视频数据上进行预训练，采用了新的VLM主干模型Cosmos-Reason2-2B。

GR00T N1.7通过在2万小时的人类视频数据上进行预训练，能够将人类操作知识迁移到机器人控制中，从而提高精确性。

GR00T N1.7支持全身人形控制，通过UNITREE_G1_SONIC实现精确的手部和足部定位。

GR00T N1.6的预训练数据包括数千小时的遥操作数据，来自多种机器人和模拟环境。

可以参考GR00T N1.7的配置指南，设置相对末端执行器动作空间以提升模型的泛化能力。

GR00T N1.7采用了Cosmos-Reason2-2B架构，支持灵活分辨率并简化数据处理流程。

🏷️