从演示中推断多目标强化学习的偏好

本研究解决了多目标决策中难以了解决策者偏好的问题。提出了一种动态权重偏好推断算法（DWPI），通过演示推断决策者的偏好。研究表明，该算法在推断精度和时间效率上显著优于现有算法，并且可以在不与用户互动的情况下运行。

本文研究了强化学习中人类偏好学习的两种假设：用点奖励代替成对偏好，以及奖励模型在超出分布数据上的泛化能力。直接偏好优化（DPO）试图绕过第二个假设，但仍依赖第一个。为此，研究提出了ΨPO目标，直接用成对偏好表示，避免两个近似。ΨPO允许深入分析RLHF和DPO的行为，并揭示其缺陷。通过设置Ψ为Identity，推导出有效优化过程，实验证明其优于DPO。

DPO ΨPO 人类偏好优化强化学习