量子位 ·

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

Q: 在FrontierMath基准测试中，「AI联合数学家」的准确率是多少？

它在测试中取得了48%的准确率。

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

谷歌DeepMind推出的「AI联合数学家」成功解决了Kourovka Notebook第21.10号问题，标志着数学研究的新突破。该系统通过人机协作，提升了解决数学难题的效率，强调持续互动与反馈，记录失败假设，帮助数学家更好地研究。在FrontierMath基准测试中，该系统取得了48%的准确率，超越了其他AI模型，展示了AI与数学家合作的潜力。

🎯

关键要点

谷歌DeepMind推出的「AI联合数学家」成功解决了Kourovka Notebook第21.10号问题，标志着数学研究的新突破。
该系统通过人机协作，提升了解决数学难题的效率，强调持续互动与反馈。
系统记录失败假设，帮助数学家更好地研究，认为知道什么行不通与知道什么行得通同等重要。
在FrontierMath基准测试中，该系统取得了48%的准确率，超越了其他AI模型，展示了AI与数学家合作的潜力。
「AI联合数学家」是一个异步、有状态的工作空间，数学家可以随时介入、引导和接管工作。
系统的底层模型Gemini 3.1 Pro在测试中表现不佳，但通过系统层面的编排提升了准确率。
该系统的设计旨在填补数学研究中的协作空白，强调数学家在研究过程中的重要性。
论文中提到的失败模式和结构性问题，提醒人们在依赖AI时需保持警惕，避免人类判断被边缘化。

🔎

延伸解读

人机协作的创新模式

谷歌的「AI联合数学家」通过人机协作的方式，强调了数学研究中的互动与反馈。这种模式不仅提升了解决问题的效率，还能帮助数学家更好地理解失败的假设，形成更全面的研究视角。数学家在研究过程中始终保持参与，确保了人类判断的重要性。

AI在数学研究中的局限性

尽管「AI联合数学家」在基准测试中取得了显著成绩，但其底层模型Gemini 3.1 Pro的表现并不理想，显示出AI在复杂数学问题上的局限性。此外，依赖AI可能导致人类判断被边缘化，尤其是在评审过程中，AI缺乏对论文深度和优雅性的整体直觉。

未来的数学研究工具

「AI联合数学家」的设计旨在填补数学研究中的协作空白，提供一个异步的工作空间。这种工具的出现可能会改变数学家的工作方式，使他们能够更高效地进行研究。未来，随着技术的进一步发展，这种协作模式有望向更广泛的用户开放，推动数学研究的进步。

❓

延伸问答

谷歌的「AI联合数学家」解决了哪个数学问题？

它成功解决了Kourovka Notebook第21.10号问题。

「AI联合数学家」如何提升数学研究的效率？

通过人机协作，强调持续互动与反馈，记录失败假设，帮助数学家更好地研究。

在FrontierMath基准测试中，「AI联合数学家」的准确率是多少？

它在测试中取得了48%的准确率。

「AI联合数学家」与之前的系统有什么不同？

它是一个异步、有状态的工作空间，强调数学家在研究过程中的重要性，而不是完全依赖AI。

「AI联合数学家」如何处理失败的假设？

系统会持久化追踪所有失败的假说，将其视为重要的研究产出。

使用「AI联合数学家」的数学家有哪些成功案例？

牛津大学的Marc Lackenby、Semon Rezchikov和Gergely Bérczi都用它解决了真实问题。

🏷️