GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL

结构之法 算法之道 结构之法 算法之道 ·

摘要:GR-RL提出了一种结合视觉语言动作模型(VLA)与强化学习(RL)的新方法,以解决机器人精细操作中的两大挑战:毫米级精确控制和长时序任务鲁棒性。该方法通过三阶段训练流程:1)利用离线RL筛选优质人类示范数据;2)采用镜像对称性进行数据增强;3)通过在线RL在潜在空间进行结构化探索优化。实验表明,这种混合训练范式显著提升了如穿鞋带等高精度灵巧操作任务的性能,解决了传统VLA策略在训练-...

阅读原文