量子位 ·

开源模型首次物理奥赛夺金！上海AI Lab 235B模型击败GPT5和Grok4

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌，得分21.2，超越了GPT-5和Grok-4，标志着开源模型在物理推理能力上达到了新高度。

🎯

关键要点

上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌，得分21.2。
P1-235B-A22B在HiPhO基准测试中获得12金1银，与谷歌Gemini-2.5-Pro并列奖牌榜第一。
开源模型在物理推理能力上超越了GPT-5和Grok-4，标志着开源模型的进步。
研究团队构建了HiPhO基准测试，专注于最新物理奥赛，采用人类对齐评估。
P1系列模型采用多阶段强化学习训练，提升了物理推理能力。
PhysicsMinions是一个协同进化多智能体系统，提升了物理推理的质量和鲁棒性。
P1-235B-A22B在HiPhO基准测试中表现卓越，成为唯一获得金牌的开源模型。
P1模型在多个领域的能力也得到提升，证明了物理推理能力的泛化性。

🏷️

继续阅读

我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
无垠拓界基筑未来｜无问智科重磅发布业界首个物理AI数据基座平台
无问智科于2026年3月5日在德清发布了首个物理AI数据基座平台“无垠”，填补行业空白。会议聚焦具身智能数据的应用与发展，强调高质量数据的重要性，展示平台...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...
AI 时代的新王座：为什么说 Go 可能是开发 AI Agent 的最佳语言？
随着AI应用的发展，Go语言因其高并发、易于部署和跨平台能力，逐渐成为AI代理开发的首选。尽管Python在数据科学中占主导地位，Go在基础设施层面的编译...
如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...
《AI文档》是对悲观主义者和加速主义者的过度炒作之作
Roher承认，随着AI的快速发展，他与OpenAI的Altman和Anthropic的Amodei的对话在电影发布时可能显得过时。他未能预见到Altma...

开源模型首次物理奥赛夺金！上海AI Lab 235B模型击败GPT5和Grok4

内容提要

关键要点

标签

继续阅读