逆Q*: 无需偏好数据的大语言模型对齐的标记级强化学习
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
强化学习中的新算法XPO通过引入新颖的探索奖励来增强DPO目标,具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。实证发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。
🎯
关键要点
- 强化学习从人类反馈中学习是语言模型对齐的核心工具。
- XPO算法通过引入新颖的探索奖励来增强DPO目标。
- XPO能够在初步模型支持和人类反馈数据之外进行探索。
- XPO在理论上具有高效采样和收敛到近乎最优策略的可靠性。
- 实证研究表明,XPO比非探索性DPO变体具有更高的样本效率。
➡️