量子位 ·

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

AI在七个月内从仅能解答2%的数学题提升至22%，甚至超越人类团队。研究表明，AI依赖直觉而非死记硬背，但缺乏创造力和深度理解，推理时常出错。尽管表现优异，AI仍需改进以应对更复杂的数学问题。

🎯

🔎

o3-mini-high的推理方式与人类数学家存在显著差异。它依赖直觉而非严谨的证明，常常跳过必要的推导步骤。这种非正式的推理方式虽然在某些情况下能得出正确答案，但缺乏形式化的过程使得其解题能力受到限制。

尽管o3-mini-high在解题上取得了显著进展，但其缺乏创造力和深度理解的局限性仍然明显。模型在75%的推理记录中存在幻觉，常常记错术语和公式。未来的研究需要关注如何提升AI在复杂数学问题上的表现。

随着AI在数学领域的快速进步，数学家的角色可能会发生变化。AI的表现已经超越了许多优秀的研究生，这引发了对未来数学研究的思考。数学家们需要重新审视自己的定位，尤其是在解决未解问题方面。

❓

AI在七个月内从解答2%的数学题提升至22%，甚至超越了人类团队的平均水平。

o3-mini-high依赖直觉而非死记硬背，表现出强大的知识储备，但缺乏创造力和深度理解。

AI缺乏创造力和深度理解，推理时常常出错，约75%的推理记录中存在幻觉。

FrontierMath基准测试包含300个数学问题，难度从本科到菲尔兹奖得主水平。

数学家们认为AI的表现可能会改变数学家的角色，尤其是在解决未解问题方面。

在29条推理记录中，o3-mini-high正确得出结论13次，剩余16次推理失败。

🏷️