DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录,超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理,显著提升智能体表现,展示了国内团队在AI领域的实力。

🎯

关键要点

  • 上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录。
  • 该测试集被认为是超难的,之前无模型得分超过10分。
  • 研究推出的工具增强推理智能体X-Master和多智能体工作流系统X-Masters显著提升了智能体表现。
  • X-Master通过模拟人类研究者的动态问题解决过程,形成共生循环。
  • X-Masters采用分散-堆叠式智能体工作流,增强推理的广度和深度。
  • 实验显示,X-Masters在HLE上得分超过30%,是首个达到此成绩的系统。
  • X-Masters在生物学/医学类别中表现优于现有系统,显示其在复杂问题上的能力。
  • “人类最后的考试”由AI安全中心和Scale AI发起,题目涵盖多个学科,难度极高。
➡️

继续阅读