小红花·文摘

直接偏好优化（DPO）是一种有效的调优策略，用于将大型语言模型与人类偏好对齐。本文提出了带有偏移量的DPO（ODPO）方法，显著提高了对齐效果，尤其在偏好数量有限时。研究还探讨了冗长性问题，并提出了Mallows-DPO和MinorDPO等改进方法，以增强模型的稳定性和鲁棒性。