小红花·文摘

本研究提出了一种改进的H-DPO方法，解决了大型语言模型训练中直接偏好优化（DPO）无法有效捕捉参考分布模式的问题。实验结果表明，H-DPO在多个任务中优于DPO，尤其在数学任务中表现突出，显示出良好的应用潜力。