机器之心 ·

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

GRAPE是一种提升机器人策略泛化能力的算法，通过偏好对齐解决视觉-语言-动作模型在新任务中的泛化问题。实验表明，GRAPE在多种任务上表现优异，显著提高了安全性和效率。

🎯

关键要点

GRAPE是一种提升机器人策略泛化能力的算法，通过偏好对齐解决视觉-语言-动作模型在新任务中的泛化问题。
GRAPE在多种任务上表现优异，显著提高了安全性和效率。
近年来，视觉-语言-动作模型在机器人任务上取得进展，但仍面临泛化能力差的问题。
GRAPE通过强化学习目标对VLA进行对齐，增强模型的全局决策能力。
GRAPE隐式建模成功和失败尝试中的奖励，提升对多样化任务的泛化能力。
GRAPE采用可扩展的偏好合成算法，使VLA模型能对齐到设定的目标。
GRAPE的框架包括轨迹级偏好优化、定制化偏好合成和迭代式在线对齐三个部分。
在真机和仿真实验中，GRAPE在多种分布外任务上表现优于最先进的模型。
GRAPE能够高效对齐机器人策略与自然语言指定的多种目标，降低碰撞率和缩短执行轨迹长度。
GRAPE是一种即插即用的VLA模型对齐框架，适用于多种机器人任务场景。

🏷️

继续阅读

具身智能公司自变量发布了机器人模型 WALL-B，35 天后进入真实家庭
上周末，北京亦庄举行的机器人马拉松比赛显示，先进的人形机器人速度已超越顶尖马拉松选手。自变量公司发布新一代具身智能模型WALL-B，计划在35天后将其机器...
超越机器人与人类的对立
文章探讨了人类与机器人在网络互动中的界限逐渐模糊的问题。网站所有者需要识别流量的意图和行为，而不仅仅是区分人类和机器人。随着AI助手的普及，传统的浏览器行...
北京机器人半马冠军竟是手机厂商，荣耀凭什么包揽前三？
在2026年北京机器人半马中，荣耀公司包揽前三名，机器人首次跑步速度超过人类。荣耀凭借强大的工程能力和自主导航技术，成功解决了持续输出和散热问题，液冷系统...
OpenClaw安全实战系列三：利用网关劫持实现 OpenClaw控制端1-Click RCE (CVE-2026-25253)
本文分析了OpenClaw控制端UI的关键逻辑漏洞CVE-2026-25253，CVSS评分为8.8。该漏洞允许攻击者通过诱导用户点击恶意链接，劫持Web...
【身份与访问控制工程】JWT、JWS、JWE、JWKS 一次讲透
本文探讨了JWT、JWS、JWE、JWK及JWKS之间的关系，分析了它们的设计、签名算法选择及安全性问题。重点讨论了常见攻击方式及防御措施，如alg=no...
【身份与访问控制工程】MFA、TOTP、WebAuthn、Passkey 工程实践
多因子认证（MFA）是保护用户资产和企业数据的基本要求。文章讨论了MFA的不同方法及其安全性，指出SMS OTP存在安全隐患，推荐使用更安全的TOTP和W...

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

内容提要

关键要点

标签

继续阅读