小红花·文摘

上海交大与深势科技团队在“人类最后的考试”中取得32.1分，创下新纪录，超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理，显著提升智能体表现，展示了国内团队在AI领域的实力。

量子位 ·

谷歌发布的Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3，成为大模型竞技场第一名。尽管表现优异，但发布后两小时内即被越狱，安全性引发关注。

量子位 ·