上海交大与深势科技团队在“人类最后的考试”中取得32.1分,创下新纪录,超越OpenAI和谷歌。研究推出的X-Master和X-Masters通过工具增强推理,显著提升智能体表现,展示了国内团队在AI领域的实力。
谷歌发布的Gemini 2.5 Pro在“人类最后的考试”中以21.6%的成绩超越o3,成为大模型竞技场第一名。尽管表现优异,但发布后两小时内即被越狱,安全性引发关注。
完成下面两步后,将自动完成登录并继续当前操作。