从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

原文约400字，阅读约需1分钟。发表于：。

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中，DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

本文介绍了通过对人类偏好进行学习的强化学习（RLHF）部署的两个重要近似。作者提出了一种新的通用目标称为ΨPO，用成对偏好表示，绕过了两个近似。作者还考虑了ΨPO的另一种特殊情况，并推导出一个有效的优化过程，证明其性能保证，并在实证上优于DPO。