💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
2025年考研数学真题测试了大语言模型的推理能力,OpenAI的GPT-o1模型表现最佳,平均分超过140分,智谱的GLM-Zero-Preview紧随其后。深度推理模型在数学问题上展现出强大能力,国产模型逐渐缩小与国际领先者的差距。
🎯
关键要点
- 2025年考研数学真题测试了大语言模型的推理能力。
- OpenAI的GPT-o1模型表现最佳,平均分超过140分。
- 智谱的GLM-Zero-Preview紧随其后,成为国产大模型第一。
- 深度推理模型在数学问题上展现出强大能力。
- 国产模型逐渐缩小与国际领先者的差距。
- 测评团队对13个模型进行了严格的评测。
- GPT-o1是唯一一个达到140分以上的模型。
- 基础模型GPT-4在此次测试中仅获70.7分,位列末席。
- 深度思考模型普遍能够达到120+的水平。
- 各模型在不同试卷的错题分布情况显示出GPT-o1的优势。
- OpenAI的深度思考模型GPT-o1相较于基础模型提升幅度最为显著。
- 国产推理大模型的成绩表明其正在逐渐缩小与国际领先者的差距。
➡️