DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录,超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理,显著提升智能体表现,展示了国内团队在AI领域的实力。

🎯

关键要点

  • 上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录。
  • 该测试集被认为是超难的,之前无模型得分超过10分。
  • 研究推出的工具增强推理智能体X-Master和多智能体工作流系统X-Masters显著提升了智能体表现。
  • X-Master通过模拟人类研究者的动态问题解决过程,形成共生循环。
  • X-Masters采用分散-堆叠式智能体工作流,增强推理的广度和深度。
  • 实验显示,X-Masters在HLE上得分超过30%,是首个达到此成绩的系统。
  • X-Masters在生物学/医学类别中表现优于现有系统,显示其在复杂问题上的能力。
  • “人类最后的考试”由AI安全中心和Scale AI发起,题目涵盖多个学科,难度极高。

延伸问答

上海交大与深势科技团队在“人类最后的考试”中取得了什么成绩?

他们在“人类最后的考试”中取得了32.1分,创下新纪录。

什么是“人类最后的考试”?

“人类最后的考试”是由AI安全中心和Scale AI发起的超难测试集,涵盖多个学科,旨在评估AI模型的推理能力。

X-Master和X-Masters的主要功能是什么?

X-Master是工具增强型推理智能体,X-Masters是多智能体工作流系统,旨在提升推理的广度和深度。

X-Masters在生物学/医学类别中的表现如何?

X-Masters在生物学/医学类别中得分为27.6%,优于现有系统Biomni和STELLA。

X-Master是如何提升推理能力的?

X-Master通过模拟人类研究者的动态问题解决过程,形成共生循环,增强推理能力。

“人类最后的考试”中题目的来源是什么?

题目来自500多家机构的1000多名学者,涵盖多个学科,经过大模型和人工的双重审查。

➡️

继续阅读