DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
内容提要
上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录,超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理,显著提升智能体表现,展示了国内团队在AI领域的实力。
关键要点
-
上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录。
-
该测试集被认为是超难的,之前无模型得分超过10分。
-
研究推出的工具增强推理智能体X-Master和多智能体工作流系统X-Masters显著提升了智能体表现。
-
X-Master通过模拟人类研究者的动态问题解决过程,形成共生循环。
-
X-Masters采用分散-堆叠式智能体工作流,增强推理的广度和深度。
-
实验显示,X-Masters在HLE上得分超过30%,是首个达到此成绩的系统。
-
X-Masters在生物学/医学类别中表现优于现有系统,显示其在复杂问题上的能力。
-
“人类最后的考试”由AI安全中心和Scale AI发起,题目涵盖多个学科,难度极高。
延伸解读
国内AI技术的崛起
上海交大与深势科技团队在“人类最后的考试”中取得32.1分,标志着国内AI技术的显著进步。这一成绩不仅超越了OpenAI和谷歌,也显示出国内团队在复杂推理和智能体开发方面的实力,可能会引发更多的国际关注与合作。
X-Master与X-Masters的创新机制
X-Master和X-Masters的设计理念通过模拟人类研究者的动态问题解决过程,形成了有效的共生循环。这种机制不仅提升了推理能力,还通过分散-堆叠式工作流增强了智能体的表现,值得其他研究团队借鉴。
“人类最后的考试”的挑战性
“人类最后的考试”被认为是史上最难的大模型测试集,涵盖多个学科,题目难度极高。X-Masters在此测试中取得的成绩,反映了其在复杂问题上的处理能力,未来可能成为AI领域的一个重要标杆。
延伸问答
上海交大与深势科技团队在“人类最后的考试”中取得了什么成绩?
他们在“人类最后的考试”中取得了32.1分,创下新纪录。
什么是“人类最后的考试”?
“人类最后的考试”是由AI安全中心和Scale AI发起的超难测试集,涵盖多个学科,旨在评估AI模型的推理能力。
X-Master和X-Masters的主要功能是什么?
X-Master是工具增强型推理智能体,X-Masters是多智能体工作流系统,旨在提升推理的广度和深度。
X-Masters在生物学/医学类别中的表现如何?
X-Masters在生物学/医学类别中得分为27.6%,优于现有系统Biomni和STELLA。
X-Master是如何提升推理能力的?
X-Master通过模拟人类研究者的动态问题解决过程,形成共生循环,增强推理能力。
“人类最后的考试”中题目的来源是什么?
题目来自500多家机构的1000多名学者,涵盖多个学科,经过大模型和人工的双重审查。