了解您的参考模型以实现良好对齐
原文约300字/词,阅读约需1分钟。发表于: 。通过引入 Trust Region DPO 方法,我们提出了一种新的对齐方法来改善模型的质量,通过在训练过程中更新参考策略,我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。
本文研究了大规模语言模型对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析稳定性和鲁棒性,提出了一种新方法MPO(混合偏好优化),减轻了两种方法的缺点。实验在两个公开的对齐数据集上展示了MPO的有效性。