早期令牌贡献更大:从时间衰减角度学习直接偏好优化

📝

内容提要

本研究解决了直接偏好优化(DPO)在生成比参考模型更长响应的长度偏差问题。我们提出了一种增强的偏好优化方法,通过引入由伽马参数控制的时间衰减因子,动态调整奖励的影响力,优先关注对模型对齐更为重要的早期令牌。实验结果显示,该方法在多个基准测试中显著优于传统DPO,表现出更好的适应性与效果。

➡️

继续阅读