我们通过奖励每一步正确推理(称为“过程监督”)训练了一个模型,取得了数学问题解决的新突破。与仅奖励最终答案的“结果监督”相比,过程监督不仅提高了性能,还能直接训练模型生成符合人类思维的推理链。
完成下面两步后,将自动完成登录并继续当前操作。