量子位 ·

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

FormalMATH发布了5560道数学题的基准测试，以评估AI模型的数学推理能力。最佳模型的成功率仅为16.46%，显示出在严格逻辑推导方面的困难。研究团队提出了自动化流程以提高效率，并呼吁学术界共同推动形式化数学推理技术的发展。

🎯

❓

FormalMATH基准测试包含5560道经过验证的数学题，评估AI模型在代数、微积分、数论等12个子领域的数学推理能力。

表现最佳的模型Kimina-Prover在FormalMATH测试中的成功率为16.46%。

研究团队提出了三阶段过滤框架，通过多LLM协同翻译、自动化验证和否定反证过滤来提高效率。

现有LLM证明器在代数领域表现尚可，但在微积分等领域表现较差，显示出明显的领域偏差。

研究发现自然语言引导反而降低了证明的成功率，尤其是在链式思维场景中。

是的，FormalMATH基准测试的代码、训练数据及评估模型已向公众开放。

🏷️

微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
Seedance MCP 对接指南
Seedance MCP 是由 Anthropic 推出的模型上下文协议，允许 AI 模型通过标准化接口调用外部工具。用户可以通过 AceData Clo...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...
这家人工智能初创公司声称能够判断一个剧本是否会成为热门电影
AI初创公司Quilty声称通过剧本分析预测电影票房成功，但实际测试结果不佳，预测不准确。Quilty结合多种AI工具提供剧本分析和成功概率评分，旨在帮助...