小红花·文摘

本文介绍了一种新的通用目标ΨPO，用成对偏好表示，可以绕过强化学习中的两个重要近似。通过将Ψ简单地设置为Identity，可以推导出一个有效的优化过程，并在一些示例中展示其在实证上优于DPO。