GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL

💡 原文中文，约9500字，阅读约需23分钟。

📝

内容提要

本文探讨了视觉语言动作（VLA）与强化学习（RL）结合的必要性，提出了GR-RL框架，以提高机器人在长时域操作中的灵巧性和精确度。GR-RL通过离线RL过滤次优数据，增强动作并进行在线RL调整，解决了人类示范中的噪声和不匹配问题。尽管GR-RL在高精度任务中表现出色，但仍面临行为漂移等局限性。

🎯

关键要点

视觉语言动作（VLA）在高精度场景下的局限性日益明显，结合强化学习（RL）成为趋势。
GR-RL框架通过离线RL过滤次优数据，增强动作并进行在线RL调整，以提高机器人操作的灵巧性和精确度。
GR-RL解决了人类示范中的噪声和不匹配问题，提升了机器人在长时域操作中的表现。
尽管GR-RL在高精度任务中表现出色，但仍面临行为漂移等局限性。
GR-RL采用多阶段强化学习流程，利用离线RL和在线RL相结合的方法，提升策略的鲁棒性和泛化能力。
通过对称性数据增强和在线调整，GR-RL实现了更高的策略性能和一致性。

❓

延伸问答

GR-RL框架的主要目标是什么？

GR-RL框架旨在提高机器人在长时域操作中的灵巧性和精确度。

GR-RL如何解决人类示范中的噪声问题？

GR-RL通过离线强化学习过滤次优数据，并利用任务进度模型来筛选高质量的状态转换。

GR-RL在高精度任务中表现如何？

GR-RL在高精度任务中表现出色，但仍面临行为漂移等局限性。

GR-RL框架采用了哪些技术来增强机器人动作？

GR-RL通过镜像机器人动作和观测，并配以翻转后的文本描述来增强动作。

GR-RL的训练流程是怎样的？

GR-RL采用多阶段强化学习流程，包括离线RL过滤、动作增强和在线RL调整。

GR-RL与传统VLA方法相比有什么优势？

GR-RL结合了VLA的泛化能力和RL的精准度，能够更好地应对高精度和长时域操作任务。

🏷️

继续阅读

Snowflake认为它知道究竟是什么在拖慢开发者的进度
Snowflake推出了基于AI的编码代理CoCo，旨在简化企业开发，支持自动化工作流程和应用开发。CoCo与Snowflake的数据平台深度集成，提供多...
代理时代对数据科学的意义
人工智能与数据科学的交汇点正在变化，AI系统能够自主执行多步骤任务，改变了数据科学家的工作。数据科学家需要结合统计思维、编程能力和领域专业知识，同时设计和...
我们正在赠送一个价值超过800美元的Prime Day科技礼包
Verge正在进行抽奖活动，奖品是一款价值超过800美元的Nomatic旅行包。活动从2026年6月4日开始，到6月30日结束，参与者只需填写信息即可报名...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
通过小聆AI小程序DIY会认人的原神派蒙AI机器人助理（LS26开发套件个性化配置参考）
本文介绍了如何使用小聆AI小程序复刻《原神》角色派蒙的形象，包括创建角色、克隆声音、配置唤醒词和应答语、待机引导语、知识库和表情设置。通过这些步骤，用户可...
亚马逊开发了一款员工可以与之对话的仓库机器人
亚马逊推出新版本全自动仓库机器人Proteus，能够与员工通过语言互动，提升自动化水平。该机器人可在更大区域内工作，帮助搬运货物。亚马逊表示，这些机器人旨...