本文研究了强化学习中人类偏好学习的两种近似:用点奖励代替成对偏好,以及奖励模型在超出分布数据上的泛化。直接偏好优化(DPO)试图绕过第二种近似,但仍依赖第一种。文章提出了新的ΨPO目标,绕过这两种近似,深入分析RLHF和DPO的行为及缺陷。通过设置Ψ为Identity,推导出有效优化过程,证明其性能优于DPO。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: