开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4
💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌,得分21.2,超越了GPT-5和Grok-4,标志着开源模型在物理推理能力上达到了新高度。
🎯
关键要点
- 上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌,得分21.2。
- P1-235B-A22B在HiPhO基准测试中获得12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。
- 开源模型在物理推理能力上超越了GPT-5和Grok-4,标志着开源模型的进步。
- 研究团队构建了HiPhO基准测试,专注于最新物理奥赛,采用人类对齐评估。
- P1系列模型采用多阶段强化学习训练,提升了物理推理能力。
- PhysicsMinions是一个协同进化多智能体系统,提升了物理推理的质量和鲁棒性。
- P1-235B-A22B在HiPhO基准测试中表现卓越,成为唯一获得金牌的开源模型。
- P1模型在多个领域的能力也得到提升,证明了物理推理能力的泛化性。
➡️