小红花·文摘

本文提出了一种高效的精确优化方法(EXO)，并与直接偏好优化(DPO)进行比较，展示了在处理人类偏好数据时的优势。同时，介绍了CodeUltraFeedback数据集和CODAL-Bench基准，以验证优化模型在编码偏好对齐方面的实用性。此外，提出了逐步DPO(sDPO)和Triple Preference Optimization(TPO)方法，以提高大型语言模型的对齐性能和质量，解决数据依赖性问题。