3D - 属性:DPO 的挑战和前进路径
📝
内容提要
通过对 Direct Preference Optimization(DPO)的实证研究和与 RLHF-PPO 的系统比较,我们发现 DPO 的三个学习结果特征,即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上,我们提出了简单的正则化方法来缓解这些问题,提高 DPO 的训练稳定性和最终性能,同时研究配对偏好数据分布对 DPO...
➡️