量子位 ·

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽

💡 原文中文，约5800字，阅读约需14分钟。

📝

内容提要

张丽及其团队在微软亚洲研究院引入“System2”概念，提升大模型的深度推理能力。通过蒙特卡洛搜索算法，7B模型的数学推理能力接近OpenAI的o1，激发了学术界的广泛讨论。她指出智商和推理能力是大模型应用的关键，未来将继续优化奖励模型并扩展任务领域。

🎯

🔎

张丽团队引入的System2概念，强调了大模型在推理能力上的提升。与传统的模型训练方法不同，System2关注的是深度推理和逻辑思考，这对于大模型的实际应用至关重要。未来，具备强大推理能力的模型将更容易在各行业中落地，提升生产力。

通过蒙特卡洛搜索算法，rStar-Math在数学推理任务中取得了显著进展。这种算法的过程奖励模型与传统的结果奖励模型相比，更加关注推理过程的每一步，能够有效提升模型的表现。这一创新可能会引发学术界对算法选择的新一轮讨论。

张丽提到，未来的研究将继续优化奖励模型和策略模型能力，尤其是在复杂推理任务上。然而，提升数学推理能力仍然是一个巨大的挑战，尽管数据丰富，但要让大模型在数学领域成为可信赖的助手，仍需克服许多技术难题。

❓

System2被认为是大模型应用的关键，智商和推理能力是核心因素，能够提升模型的深度推理能力。

rStar-Math通过蒙特卡洛搜索算法，让7B模型实现了接近OpenAI o1级别的数学推理能力。

主要质疑是小模型能力如何如此强大，以及该方法是否能泛化到其他任务。

蒙特卡洛搜索算法的奖励模型是步骤级别的过程奖励模型，而传统的Best of N奖励模型是结果奖励模型，不关注过程。

未来将继续优化奖励模型，提升策略模型能力，并扩展任务领域，特别是高难度的代码推理任务。

数学推理要求程序执行能力和逻辑严谨性，是智商的天花板，且许多复杂证明需要极高的智力。

🏷️