SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

清华与CMU团队的研究表明,长思维链(CoT)推理能力可以通过强化学习(RL)实现,监督微调(SFT)并非必需,但能提升效率。研究强调奖励函数对CoT扩展的重要性,并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

🎯

关键要点

  • SFT并非必需,但能简化训练并提高效率。

  • 推理能力随着训练计算的增加而出现,但并非总是如此。

  • 可验证奖励函数对增长CoT至关重要。

  • 纠错等核心能力基础模型天生自带,但通过RL有效地激励这些技能需要大量的计算。

  • 研究团队采用了Llama-3.1-8B和QwQ-32B-Preview等基础模型进行实验。

  • 长CoT SFT能够显著提高模型的性能上限,且有更高的性能拓展空间。

  • 使用长CoT SFT初始化的模型通常可以通过RL进一步显著改进。

  • 引入余弦长度缩放奖励机制,有效稳定思维链的增长。

  • 从涌现长CoT模式中提炼的模型比构建的模式泛化得更好。

  • 未来研究方向包括扩大模型规模、改进RL基础设施和探索更有效的验证信号。

延伸问答

长思维链能力如何通过强化学习实现?

长思维链能力可以通过强化学习实现,而监督微调并非必需,但能提高效率。

奖励函数在长思维链扩展中有何重要性?

可验证的奖励函数对长思维链的扩展至关重要,能够有效激励模型的推理能力。

SFT对长思维链的影响是什么?

SFT能够简化训练并提高模型的准确性,尤其是在长思维链数据上进行时。

未来的研究方向有哪些?

未来研究将集中在扩大模型规模、改进强化学习基础设施和探索更有效的验证信号上。

长思维链和短思维链在强化学习中的表现有何不同?

长思维链模型在强化学习中通常能获得显著改进,而短思维链模型的收益较小。

如何有效激励模型的自我纠错能力?

通过强化学习有效激励自我纠错能力需要大量计算,并需设计精细的激励机制。

➡️

继续阅读