可控熵直接偏好优化
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了在大型语言模型后训练过程中,使用人类反馈的强化学习方法中直接偏好优化(DPO)面临的最低KL散度未能有效捕捉参考分布模式的问题。我们提出了一种简单的修改H-DPO,使得可控的熵有助于增强分布的尖锐性,从而更有效地支持模式寻求拟合。实验表明,H-DPO在各种任务中均优于DPO,展示出在数学任务中获得的优越结果,表明其在大型语言模型训练中的实际意义和应用潜力。
本研究提出了一种改进的H-DPO方法,解决了大型语言模型训练中直接偏好优化(DPO)无法有效捕捉参考分布模式的问题。实验结果表明,H-DPO在多个任务中优于DPO,尤其在数学任务中表现突出,显示出良好的应用潜力。