小红花·文摘

本研究提出了一种新的训练范式Pre-DPO，旨在提高直接偏好优化（DPO）的数据利用效率。通过使用指导参考模型，Pre-DPO显著提升了DPO和简单偏好优化（SimPO）的性能，无需外部模型或额外数据。