量子位 ·

字节Seed发布最强数学模型：一招“打草稿”，IMO银牌变金牌

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

字节推出的Seed Prover 1.5模型在IMO中获得金牌，成功解决前五道题目。该模型结合大规模强化学习与新形式化推理方法，显著提升了解题效率，并通过草稿和多工具交互更有效地处理复杂数学问题。

🎯

关键要点

字节推出的Seed Prover 1.5模型在IMO中获得金牌，成功解决前五道题目。
该模型结合大规模强化学习与新形式化推理方法，显著提升了解题效率。
Seed Prover 1.5在北美本科级别数学竞赛Putnam中刷新了SOTA成绩。
模型参数规模为230B，总激活为23B，主要创新包括Agentic Prover和Sketch Model。
Agentic Prover采用形式化数学推理，确保结果可靠，克服了形式化证明的效率问题。
Sketch Model模拟人类数学家解决问题的方式，专注于逻辑路径的规划。
模型通过混合奖励信号的强化学习策略进行训练，提升了证明的成功率。
Seed Prover 1.5构成了一个分层级的多智能体协作系统，提升了推理的并行度和成功率。
研究验证了模型在测试时的Scaling特性，投入更多计算资源可显著提高解决率。

🔎

延伸解读

模型创新与效率提升

Seed Prover 1.5通过引入Agentic Prover和Sketch Model，显著提升了数学推理的效率。Agentic Prover采用形式化推理，确保结果的可靠性，而Sketch Model则模拟人类数学家的思维过程，使复杂问题变得更易处理。这种创新不仅提高了成功率，也为未来的数学模型发展提供了新的思路。

强化学习的应用

该模型的成功得益于大规模强化学习的应用，随着训练步数的增加，证明通过率显著提升。这表明，强化学习在复杂问题求解中的潜力巨大，未来可以通过更多计算资源进一步优化模型性能，值得关注其在其他领域的应用前景。

多智能体协作系统的优势

Seed Prover 1.5构建了一个分层级的多智能体协作系统，各个模型之间的协作提升了推理的并行度和成功率。这种设计不仅避免了长文本生成的错误累积，还能有效应对复杂问题，展示了多智能体系统在解决高难度数学问题中的潜力。

❓

延伸问答

Seed Prover 1.5模型的主要创新是什么？

Seed Prover 1.5的主要创新包括Agentic Prover和Sketch Model，前者采用形式化数学推理，后者模拟人类数学家解决问题的方式。

Seed Prover 1.5在IMO中取得了什么成绩？

Seed Prover 1.5在IMO中成功解决前五道题目，获得金牌，得分达到35分。

Agentic Prover如何提高形式化证明的效率？

Agentic Prover通过自主调用多种工具和增量式引理验证，克服了形式化证明的效率问题。

Sketch Model的作用是什么？

Sketch Model的作用是将自然语言证明转化为形式化的引理结构，帮助模型更好地规划逻辑路径。

Seed Prover 1.5如何利用强化学习提升解题率？

Seed Prover 1.5通过混合奖励信号的强化学习策略进行训练，随着训练步数的增加，证明通过率显著提升。

Seed Prover 1.5的参数规模是多少？

Seed Prover 1.5的参数规模为230B，总激活为23B。

🏷️