通过动态策略融合实现个性化
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了深度强化学习(RL)策略与人类用户个人偏好不一致的问题。提出了一种创新的方法,通过用户反馈调整已训练的策略,利用动态策略融合理论,将用户意图与任务策略相结合,以实现个性化需求。实验结果表明,该方法在多个环境中有效地同时满足任务目标和用户特定需求。
本文研究了强化学习中人类偏好学习的两种近似:用点奖励代替成对偏好,以及奖励模型在超出分布数据上的泛化。直接偏好优化(DPO)试图绕过第二种近似,但仍依赖第一种。文章提出了新的ΨPO目标,绕过这两种近似,深入分析RLHF和DPO的行为及缺陷。通过设置Ψ为Identity,推导出有效优化过程,证明其性能优于DPO。