sDPO：不要一次性使用您的数据

随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO（sDPO），这是最近流行的直接偏好优化（DPO）的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用，而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外，sDPO 训练出的最终模型具有更好的性能，甚至超过了其他具有更多参数的流行大型语言模型。

随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。研究人员提出了逐步DPO（sDPO）方法，通过逐步利用可用的偏好数据集，提高了DPO训练框架的精确对齐和性能。sDPO训练出的最终模型甚至超过了其他具有更多参数的大型语言模型。