SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
清华与CMU团队的研究表明,长思维链(CoT)推理能力可以通过强化学习(RL)实现,监督微调(SFT)并非必需,但能提升效率。研究强调奖励函数对CoT扩展的重要性,并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。
🎯
关键要点
- SFT并非必需,但能简化训练并提高效率。
- 推理能力随着训练计算的增加而出现,但并非总是如此。
- 可验证奖励函数对增长CoT至关重要。
- 纠错等核心能力基础模型天生自带,但通过RL有效地激励这些技能需要大量的计算。
- 研究团队采用了Llama-3.1-8B和QwQ-32B-Preview等基础模型进行实验。
- 长CoT SFT能够显著提高模型的性能上限,且有更高的性能拓展空间。
- 使用长CoT SFT初始化的模型通常可以通过RL进一步显著改进。
- 引入余弦长度缩放奖励机制,有效稳定思维链的增长。
- 从涌现长CoT模式中提炼的模型比构建的模式泛化得更好。
- 未来研究方向包括扩大模型规模、改进RL基础设施和探索更有效的验证信号。
➡️