语言奖励调节预训练强化学习

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种使用基于学习的奖励函数(LRFs)解决稀疏奖励强化学习(RL)任务的方法。该方法称为LAMP,利用Vision-Language Models (VLMs)的零样本能力作为RL的预训练工具。通过计算语言指令与图像观察之间的对齐,LAMP生成探索奖励。该方法在RLBench的机器人操作任务上具有高的样本效率。

🎯

关键要点

  • 本文介绍了一种使用基于学习的奖励函数(LRFs)解决稀疏奖励强化学习(RL)任务的方法。
  • 该方法称为LAMP,利用Vision-Language Models (VLMs)的零样本能力作为RL的预训练工具。
  • LAMP通过计算语言指令与图像观察之间的对齐生成探索奖励。
  • 该方法在RLBench的机器人操作任务上具有高的样本效率。
  • LAMP使用冻结的预训练VLM生成嘈杂但有形状的探索奖励。
  • LAMP与强化学习中的寻求新颖性的探索奖励一起优化这些奖励,以获得受语言条件约束的预训练策略。
  • 我们的VLM预训练方法与以前使用LRFs的方法不同。
➡️

继续阅读