从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数

原文约400字,阅读约需1分钟。发表于:

使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

本文介绍了通过对人类偏好进行学习的强化学习(RLHF)部署的两个重要近似。作者提出了一种新的通用目标称为ΨPO,用成对偏好表示,绕过了两个近似。作者还考虑了ΨPO的另一种特殊情况,并推导出一个有效的优化过程,证明其性能保证,并在实证上优于DPO。

相关推荐 去reddit讨论