结构之法算法之道 ·

字节GR2——在大规模视频数据集上预训练且机器人数据上微调，随后预测动作轨迹和视频(含GR1详解)

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

本文介绍了字节推出的机器人大模型GR2，强调其两阶段训练方法及在真实机器人上的应用。GR2通过视频生成预训练和机器人数据微调，展现出在多任务学习中的强大能力，成功率显著高于前代模型GR1。

🎯

🔎

GR2采用了视频生成预训练和机器人数据微调的两阶段训练方法。这种方法不仅提高了模型的动作预测能力，还使其能够在多种环境中灵活适应，展现出强大的多任务学习能力。与前代GR1相比，GR2在处理复杂任务时的成功率显著提升，尤其是在未见过的背景和环境中表现出色。

尽管GR2在多任务学习中表现优异，但在实际应用中仍面临挑战。例如，在处理未见过的物体和复杂环境时，模型的成功率有所下降。这表明在机器人操作中，如何有效应对新环境和物体仍是一个需要进一步研究的问题。

GR2通过数据增强技术显著提升了在未见环境中的表现，成功率达到了87.0%。这表明在训练过程中引入多样化的场景和物体，可以有效提高模型的泛化能力。因此，未来的机器人训练应更加重视数据增强策略的应用。

❓

GR2模型采用两阶段训练方法，包括视频生成预训练和机器人数据微调。

GR2在105个桌面任务中达到了97.7%的成功率，显示出强大的多任务学习能力。

GR2在未见过的背景和环境中分别达到了71.4%和71.7%的成功率，是GR1的两倍，且在多任务学习中表现更优。

GR2通过数据增强和微调，能够在未见过的环境中实现87.0%的成功率，并在新任务中表现出色。

GR2的模型架构允许知识无损转移到下游微调，表现出强大的可扩展性。

GR2在真实机器人系统中使用7自由度的Kinova Gen3机械臂和Robotiq 2F-85夹爪进行操作。

🏷️