小红花·文摘

本研究通过分析迭代偏好微调框架，引入正则化来减少自奖励大语言模型在偏好数据生成中的不准确性。实验结果表明，CREAM模型在奖励一致性和对齐性能上优于传统方法，提高了训练的可靠性和效果。