量子位 ·

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

清华与CMU团队的研究表明，长思维链（CoT）推理能力可以通过强化学习（RL）实现，监督微调（SFT）并非必需，但能提升效率。研究强调奖励函数对CoT扩展的重要性，并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

🎯

❓

长思维链能力可以通过强化学习实现，而监督微调并非必需，但能提高效率。

可验证的奖励函数对长思维链的扩展至关重要，能够有效激励模型的推理能力。

SFT能够简化训练并提高模型的准确性，尤其是在长思维链数据上进行时。

未来研究将集中在扩大模型规模、改进强化学习基础设施和探索更有效的验证信号上。

长思维链模型在强化学习中通常能获得显著改进，而短思维链模型的收益较小。

通过强化学习有效激励自我纠错能力需要大量计算，并需设计精细的激励机制。

🏷️

智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
团队在处理重复支付时面临的后台挑战
现代支付系统表面简单，但重复交易的后台复杂性显著。文章探讨了构建重复支付系统时的七个挑战，包括管理支付计划、避免重复收费、优雅处理失败支付、保持系统状态一...
我们在2026年5月发布的最新AI新闻
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...