把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

GRAPE是一种提升机器人策略泛化能力的算法,通过偏好对齐解决视觉-语言-动作模型在新任务中的泛化问题。实验表明,GRAPE在多种任务上表现优异,显著提高了安全性和效率。

🎯

关键要点

  • GRAPE是一种提升机器人策略泛化能力的算法,通过偏好对齐解决视觉-语言-动作模型在新任务中的泛化问题。
  • GRAPE在多种任务上表现优异,显著提高了安全性和效率。
  • 近年来,视觉-语言-动作模型在机器人任务上取得进展,但仍面临泛化能力差的问题。
  • GRAPE通过强化学习目标对VLA进行对齐,增强模型的全局决策能力。
  • GRAPE隐式建模成功和失败尝试中的奖励,提升对多样化任务的泛化能力。
  • GRAPE采用可扩展的偏好合成算法,使VLA模型能对齐到设定的目标。
  • GRAPE的框架包括轨迹级偏好优化、定制化偏好合成和迭代式在线对齐三个部分。
  • 在真机和仿真实验中,GRAPE在多种分布外任务上表现优于最先进的模型。
  • GRAPE能够高效对齐机器人策略与自然语言指定的多种目标,降低碰撞率和缩短执行轨迹长度。
  • GRAPE是一种即插即用的VLA模型对齐框架,适用于多种机器人任务场景。
➡️

继续阅读