Pre-DPO:通过指导参考模型提高直接偏好优化中的数据利用率
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本研究提出了一种新的训练范式Pre-DPO,旨在提高直接偏好优化(DPO)的数据利用效率。通过使用指导参考模型,Pre-DPO显著提升了DPO和简单偏好优化(SimPO)的性能,无需外部模型或额外数据。
🎯
关键要点
- 本研究提出了一种新的训练范式Pre-DPO,旨在提高直接偏好优化(DPO)的数据利用效率。
- Pre-DPO通过使用指导参考模型,显著提升了DPO和简单偏好优化(SimPO)的性能。
- Pre-DPO的优势在于无需外部模型或额外数据。
➡️