通过强化学习实现大型语言模型的交替推理

Long chain-of-thought (CoT) significantly enhances large language models' (LLM) reasoning capabilities. However, the extensive reasoning traces lead to inefficiencies and an increased...

长链推理提升了大型语言模型的推理能力,但效率低下且首次生成时间增加。我们提出了一种新训练方法,通过强化学习引导模型交替思考与回答多步问题。实验结果显示,该方法平均减少首次生成时间80%,并提高Pass@1准确率19.3%。

通过强化学习实现大型语言模型的交替推理
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文