释放预训练语言模型在离线强化学习中的能力

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文提出了一种名为LAMP的方法,利用Vision-Language Models的零样本能力作为预训练工具,生成探索奖励,以获得受语言条件约束的预训练策略。该方法可以在RLBench的机器人操作任务上启动样本效率高的学习。

🎯

关键要点

  • 使用基于学习的奖励函数(LRFs)解决稀疏奖励强化学习(RL)任务取得了一些进展。
  • 提出了一种名为LAMP的方法,将LRFs作为RL的预训练信号。
  • LAMP利用Vision-Language Models (VLMs)的零样本能力作为预训练工具。
  • 通过对比对齐语言指令与图像观察,LAMP生成嘈杂但有形状的探索奖励。
  • LAMP与强化学习中的寻求新颖性的探索奖励一起优化,以获得受语言条件约束的预训练策略。
  • LAMP的方法与以前使用LRFs的方法不同,能够在RLBench的机器人操作任务上实现高样本效率的学习。
➡️

继续阅读