本文介绍了一种新的通用目标ΨPO,用成对偏好表示,可以绕过强化学习中的两个重要近似。通过将Ψ简单地设置为Identity,可以推导出一个有效的优化过程,并在一些示例中展示其在实证上优于DPO。
完成下面两步后,将自动完成登录并继续当前操作。