小红花·文摘

本文提出了一种名为LAMP的方法，利用Vision-Language Models的零样本能力作为预训练工具，生成探索奖励，以获得受语言条件约束的预训练策略。该方法可以在RLBench的机器人操作任务上启动样本效率高的学习。

释放预训练语言模型在离线强化学习中的能力

BriefGPT - AI 论文速递 ·

使用稀疏自编码器解释 RLHF 调整的语言模型中的奖励模型

BriefGPT - AI 论文速递 ·

本文介绍了一种使用基于学习的奖励函数（LRFs）解决稀疏奖励强化学习（RL）任务的方法。该方法称为LAMP，利用Vision-Language Models (VLMs)的零样本能力作为RL的预训练工具。通过计算语言指令与图像观察之间的对齐，LAMP生成探索奖励。该方法在RLBench的机器人操作任务上具有高的样本效率。

语言奖励调节预训练强化学习

BriefGPT - AI 论文速递 ·