SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
清华与CMU团队的研究表明,长思维链(CoT)推理能力可以通过强化学习(RL)实现,监督微调(SFT)并非必需,但能提升效率。研究强调奖励函数对CoT扩展的重要性,并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。
🎯
关键要点
-
SFT并非必需,但能简化训练并提高效率。
-
推理能力随着训练计算的增加而出现,但并非总是如此。
-
可验证奖励函数对增长CoT至关重要。
-
纠错等核心能力基础模型天生自带,但通过RL有效地激励这些技能需要大量的计算。
-
研究团队采用了Llama-3.1-8B和QwQ-32B-Preview等基础模型进行实验。
-
长CoT SFT能够显著提高模型的性能上限,且有更高的性能拓展空间。
-
使用长CoT SFT初始化的模型通常可以通过RL进一步显著改进。
-
引入余弦长度缩放奖励机制,有效稳定思维链的增长。
-
从涌现长CoT模式中提炼的模型比构建的模式泛化得更好。
-
未来研究方向包括扩大模型规模、改进RL基础设施和探索更有效的验证信号。
❓
延伸问答
长思维链能力如何通过强化学习实现?
长思维链能力可以通过强化学习实现,而监督微调并非必需,但能提高效率。
奖励函数在长思维链扩展中有何重要性?
可验证的奖励函数对长思维链的扩展至关重要,能够有效激励模型的推理能力。
SFT对长思维链的影响是什么?
SFT能够简化训练并提高模型的准确性,尤其是在长思维链数据上进行时。
未来的研究方向有哪些?
未来研究将集中在扩大模型规模、改进强化学习基础设施和探索更有效的验证信号上。
长思维链和短思维链在强化学习中的表现有何不同?
长思维链模型在强化学习中通常能获得显著改进,而短思维链模型的收益较小。
如何有效激励模型的自我纠错能力?
通过强化学习有效激励自我纠错能力需要大量计算,并需设计精细的激励机制。
➡️