通过动态策略融合实现个性化

本研究解决了深度强化学习（RL）策略与人类用户个人偏好不一致的问题。提出了一种创新的方法，通过用户反馈调整已训练的策略，利用动态策略融合理论，将用户意图与任务策略相结合，以实现个性化需求。实验结果表明，该方法在多个环境中有效地同时满足任务目标和用户特定需求。

本文研究了强化学习中人类偏好学习的两种近似：用点奖励代替成对偏好，以及奖励模型在超出分布数据上的泛化。直接偏好优化（DPO）试图绕过第二种近似，但仍依赖第一种。文章提出了新的ΨPO目标，绕过这两种近似，深入分析RLHF和DPO的行为及缺陷。通过设置Ψ为Identity，推导出有效优化过程，证明其性能优于DPO。

ΨPO目标人类偏好优化过程强化学习直接偏好优化