该研究提出自一致偏好优化(ScPO)方法,旨在解决自对齐技术在复杂推理任务中的奖励分配问题。ScPO通过无监督训练提升一致答案的质量,显著改善传统奖励模型的表现。
完成下面两步后,将自动完成登录并继续当前操作。