本研究通过分析迭代偏好微调框架,引入正则化来减少自奖励大语言模型在偏好数据生成中的不准确性。实验结果表明,CREAM模型在奖励一致性和对齐性能上优于传统方法,提高了训练的可靠性和效果。
完成下面两步后,将自动完成登录并继续当前操作。