长链推理提升了大型语言模型的推理能力,但效率低下且首次生成时间增加。我们提出了一种新训练方法,通过强化学习引导模型交替思考与回答多步问题。实验结果显示,该方法平均减少首次生成时间80%,并提高Pass@1准确率19.3%。
完成下面两步后,将自动完成登录并继续当前操作。