字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)

💡 原文中文,约5200字,阅读约需13分钟。
📝

内容提要

本文介绍了字节推出的机器人大模型GR2,强调其两阶段训练方法及在真实机器人上的应用。GR2通过视频生成预训练和机器人数据微调,展现出在多任务学习中的强大能力,成功率显著高于前代模型GR1。

🎯

关键要点

  • 字节推出的机器人大模型GR2,采用两阶段训练方法。
  • GR2通过视频生成预训练和机器人数据微调,显著提高了多任务学习能力。
  • GR2在3800万条文本-视频数据上进行预训练,能够完成超过100项操作任务。
  • GR2的模型架构允许知识无损转移到下游微调,表现出强大的可扩展性。
  • 真实机器人系统由7自由度的Kinova Gen3机械臂和Robotiq 2F-85夹爪组成。
  • GR2在105个桌面任务中达到了97.7%的成功率,展示了其强大的多任务学习能力。
  • 在未见过的背景和环境中,GR2分别达到了71.4%和71.7%的成功率,是GR1的两倍。
  • 通过数据增强,GR2在未见过的环境中取得了87.0%的成功率,展示了其竞争力的泛化性能。
  • GR2在仅用50条轨迹进行训练时,仍能在简单设置下实现73.9%的成功率。

延伸问答

GR2模型的训练方法是什么?

GR2模型采用两阶段训练方法,包括视频生成预训练和机器人数据微调。

GR2在多任务学习中的表现如何?

GR2在105个桌面任务中达到了97.7%的成功率,显示出强大的多任务学习能力。

GR2与前代模型GR1相比有什么改进?

GR2在未见过的背景和环境中分别达到了71.4%和71.7%的成功率,是GR1的两倍,且在多任务学习中表现更优。

GR2如何处理未见过的环境和任务?

GR2通过数据增强和微调,能够在未见过的环境中实现87.0%的成功率,并在新任务中表现出色。

GR2的模型架构有什么特点?

GR2的模型架构允许知识无损转移到下游微调,表现出强大的可扩展性。

GR2在真实机器人系统中的应用是什么?

GR2在真实机器人系统中使用7自由度的Kinova Gen3机械臂和Robotiq 2F-85夹爪进行操作。

➡️

继续阅读