小红花·文摘

该研究提出自一致偏好优化（ScPO）方法，旨在解决自对齐技术在复杂推理任务中的奖励分配问题。ScPO通过无监督训练提升一致答案的质量，显著改善传统奖励模型的表现。