强化学习中的新算法XPO通过引入新颖的探索奖励来增强DPO目标,具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。实证发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。
本文提出了一种名为LAMP的方法,利用Vision-Language Models的零样本能力作为预训练工具,生成探索奖励,以获得受语言条件约束的预训练策略。该方法可以在RLBench的机器人操作任务上启动样本效率高的学习。
完成下面两步后,将自动完成登录并继续当前操作。