本研究提出了一种新的训练范式Pre-DPO,旨在提高直接偏好优化(DPO)的数据利用效率。通过使用指导参考模型,Pre-DPO显著提升了DPO和简单偏好优化(SimPO)的性能,无需外部模型或额外数据。
完成下面两步后,将自动完成登录并继续当前操作。