WPO: 加强 RLHF 的加权偏好优化

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了强化学习中的偏好优化方法ΨPO,通过绕过近似分析RLHF和DPO,揭示了它们的潜在缺陷。作者还通过实证表明ΨPO在性能上优于DPO。

🎯

关键要点

  • 强化学习中的偏好优化方法ΨPO被提出,旨在绕过近似分析RLHF和DPO的缺陷。

  • RLHF依赖于两个近似:用点奖励替代成对偏好和从超出分布数据中泛化的奖励模型。

  • 直接偏好优化(DPO)方法试图绕过第二个近似,但仍依赖于第一个近似。

  • 本文推导出一种新的通用目标ΨPO,能够用成对偏好表示,绕过两个近似。

  • ΨPO使得对RLHF和DPO的行为进行深入分析,并识别其潜在缺陷。

  • 通过将Ψ设置为Identity,推导出ΨPO的有效优化过程,并证明其性能保证。

  • 实证结果表明,ΨPO在性能上优于DPO。

➡️

继续阅读