量子位 ·

开源模型首次物理奥赛夺金！上海AI Lab 235B模型击败GPT5和Grok4

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌，得分21.2，超越了GPT-5和Grok-4，标志着开源模型在物理推理能力上达到了新高度。

🎯

🔎

P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌，标志着开源模型在物理推理能力上已超越许多闭源模型。这一成就不仅提升了开源技术的地位，也为未来的科学研究和教育提供了新的可能性。

HiPhO基准测试是专为评估物理奥赛表现而设计的，采用人类对齐评估标准，确保了评分的准确性和公正性。这种测试方法为模型的物理推理能力提供了可靠的验证，推动了AI在科学领域的应用。

PhysicsMinions作为协同进化的多智能体系统，通过模块化设计提升了物理推理的质量和鲁棒性。这种系统不仅增强了模型的推理能力，还为解决复杂科学问题提供了新的思路，展示了AI技术的广泛应用潜力。

❓

P1-235B-A22B模型在国际物理奥林匹克竞赛中获得金牌，得分21.2。

HiPhO基准测试旨在准确评估物理奥赛的表现，采用人类对齐评估。

P1系列模型通过多阶段强化学习训练和上下文窗口扩展来提升物理推理能力。

PhysicsMinions是一个协同进化多智能体系统，旨在提升物理推理的质量和鲁棒性。

P1-235B-A22B在HiPhO基准测试中获得12金1银，表现卓越，成为唯一获得金牌的开源模型。

开源模型在物理推理能力上已超越闭源模型，如GPT-5和Grok-4。

🏷️