具有偏好反馈的差分隐私奖励估计

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的通用目标ΨPO,用成对偏好表示,可以绕过强化学习中的两个重要近似。通过将Ψ简单地设置为Identity,可以推导出一个有效的优化过程,并在一些示例中展示其在实证上优于DPO。

🎯

关键要点

  • 强化学习中的人类偏好学习依赖于两个重要的近似。
  • 第一个假设是用点奖励替代成对偏好。
  • 第二个假设是奖励模型可以从超出分布的数据中泛化。
  • 直接偏好优化(DPO)被提出以绕过第二个近似。
  • DPO 仍然依赖于第一个近似。
  • 本文提出了一种新的通用目标 ΨPO,能够绕过两个近似。
  • ΨPO 使得对 RLHF 和 DPO 的行为进行深入分析成为可能。
  • 通过将 Ψ 设置为 Identity,可以推导出有效的优化过程。
  • 在一些示例中,ΨPO 的实证表现优于 DPO。
➡️

继续阅读