DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录,超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理,显著提升智能体表现,展示了国内团队在AI领域的实力。
🎯
关键要点
- 上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录。
- 该测试集被认为是超难的,之前无模型得分超过10分。
- 研究推出的工具增强推理智能体X-Master和多智能体工作流系统X-Masters显著提升了智能体表现。
- X-Master通过模拟人类研究者的动态问题解决过程,形成共生循环。
- X-Masters采用分散-堆叠式智能体工作流,增强推理的广度和深度。
- 实验显示,X-Masters在HLE上得分超过30%,是首个达到此成绩的系统。
- X-Masters在生物学/医学类别中表现优于现有系统,显示其在复杂问题上的能力。
- “人类最后的考试”由AI安全中心和Scale AI发起,题目涵盖多个学科,难度极高。
➡️