从演示中推断多目标强化学习的偏好

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文研究了强化学习中人类偏好学习的两种假设:用点奖励代替成对偏好,以及奖励模型在超出分布数据上的泛化能力。直接偏好优化(DPO)试图绕过第二个假设,但仍依赖第一个。为此,研究提出了ΨPO目标,直接用成对偏好表示,避免两个近似。ΨPO允许深入分析RLHF和DPO的行为,并揭示其缺陷。通过设置Ψ为Identity,推导出有效优化过程,实验证明其优于DPO。

🎯

关键要点

  • 本文研究了强化学习中人类偏好学习的两种假设:用点奖励代替成对偏好,以及奖励模型在超出分布数据上的泛化能力。

  • 直接偏好优化(DPO)试图绕过第二个假设,但仍依赖第一个假设。

  • 研究提出了ΨPO目标,直接用成对偏好表示,避免两个近似。

  • ΨPO允许深入分析RLHF和DPO的行为,并揭示其缺陷。

  • 通过设置Ψ为Identity,推导出有效优化过程,实验证明其优于DPO。

➡️

继续阅读