字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)
💡
原文中文,约5200字,阅读约需13分钟。
📝
内容提要
本文介绍了字节推出的机器人大模型GR2,强调其两阶段训练方法及在真实机器人上的应用。GR2通过视频生成预训练和机器人数据微调,展现出在多任务学习中的强大能力,成功率显著高于前代模型GR1。
🎯
关键要点
- 字节推出的机器人大模型GR2,采用两阶段训练方法。
- GR2通过视频生成预训练和机器人数据微调,显著提高了多任务学习能力。
- GR2在3800万条文本-视频数据上进行预训练,能够完成超过100项操作任务。
- GR2的模型架构允许知识无损转移到下游微调,表现出强大的可扩展性。
- 真实机器人系统由7自由度的Kinova Gen3机械臂和Robotiq 2F-85夹爪组成。
- GR2在105个桌面任务中达到了97.7%的成功率,展示了其强大的多任务学习能力。
- 在未见过的背景和环境中,GR2分别达到了71.4%和71.7%的成功率,是GR1的两倍。
- 通过数据增强,GR2在未见过的环境中取得了87.0%的成功率,展示了其竞争力的泛化性能。
- GR2在仅用50条轨迹进行训练时,仍能在简单设置下实现73.9%的成功率。
➡️