SimPO: 简单无参考奖励优化
原文中文,约300字,阅读约需1分钟。发表于: 。SimPO 是一种简化且更加有效的离线首选优化算法,通过使用序列的平均对数概率作为隐式奖励来改进模型生成并消除参考模型的需求,进一步增强算法的性能。通过与 DPO 及其最新变体在多种训练设置中的比较,SimPO 始终显著优于现有方法,而不会显著增加响应长度。
本文研究了大规模语言模型对齐的两种方法:强化学习与人类反馈(RLHF)和基于对比学习的直接偏好优化(DPO)。提出了一种新方法MPO,通过两阶段训练过程减轻了两种方法的缺点。实验结果表明MPO在对齐数据集上有效。