量子位 ·

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

上海交大与深势科技团队在“人类最后的考试”中取得32.1分，创下新纪录，超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理，显著提升智能体表现，展示了国内团队在AI领域的实力。

🎯

🔎

上海交大与深势科技团队在“人类最后的考试”中取得32.1分，标志着国内AI技术的显著进步。这一成绩不仅超越了OpenAI和谷歌，也显示出国内团队在复杂推理和智能体开发方面的实力，可能会引发更多的国际关注与合作。

X-Master和X-Masters的设计理念通过模拟人类研究者的动态问题解决过程，形成了有效的共生循环。这种机制不仅提升了推理能力，还通过分散-堆叠式工作流增强了智能体的表现，值得其他研究团队借鉴。

“人类最后的考试”被认为是史上最难的大模型测试集，涵盖多个学科，题目难度极高。X-Masters在此测试中取得的成绩，反映了其在复杂问题上的处理能力，未来可能成为AI领域的一个重要标杆。

❓

他们在“人类最后的考试”中取得了32.1分，创下新纪录。

“人类最后的考试”是由AI安全中心和Scale AI发起的超难测试集，涵盖多个学科，旨在评估AI模型的推理能力。

X-Master是工具增强型推理智能体，X-Masters是多智能体工作流系统，旨在提升推理的广度和深度。

X-Masters在生物学/医学类别中得分为27.6%，优于现有系统Biomni和STELLA。

X-Master通过模拟人类研究者的动态问题解决过程，形成共生循环，增强推理能力。

题目来自500多家机构的1000多名学者，涵盖多个学科，经过大模型和人工的双重审查。

🏷️