通过最优策略拟合进行连续学习的人类偏好
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了强化学习中的两个重要近似,提出了一种新的通用目标ΨPO,用成对偏好表示,从而绕过了这两个近似。作者证明了ΨPO的性能保证,并在实证上展示其优于DPO。
🎯
关键要点
- 强化学习中的人类偏好学习依赖于两个重要近似。
- 第一个假设是用点奖励替代成对偏好。
- 第二个假设是奖励模型可以从超出分布的数据中泛化。
- 直接偏好优化(DPO)被提出以绕过第二个近似,但仍依赖第一个近似。
- 本文提出了一种新的通用目标ΨPO,使用成对偏好表示,绕过两个近似。
- ΨPO使得对RLHF和DPO的行为进行深入分析成为可能。
- 通过将Ψ设置为Identity,推导出有效的优化过程并证明其性能保证。
- 实证结果显示ΨPO在某些示例中优于DPO。
➡️