机器之心 ·

国产推理大模型决战2025考研数学，看看谁第一个上岸？

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

2025年考研数学真题测试了大语言模型的推理能力，OpenAI的GPT-o1模型表现最佳，平均分超过140分，智谱的GLM-Zero-Preview紧随其后。深度推理模型在数学问题上展现出强大能力，国产模型逐渐缩小与国际领先者的差距。

🎯

🔎

此次考研数学真题的测试显示，深度推理模型在数学问题上的表现显著提升，尤其是OpenAI的GPT-o1模型，其平均分超过140分，成为唯一一个达到此水平的模型。这表明，推理能力的提升是大语言模型发展的重要趋势，未来可能会影响更多领域的应用。

智谱的GLM-Zero-Preview和阿里的QwQ模型在此次测试中表现优异，分别获得138.7分和137.0分，显示出国产推理大模型正在逐步缩小与国际领先者的差距。这一进展不仅提升了国内技术的竞争力，也为未来的研究和应用奠定了基础。

测试结果显示，基础模型如GPT-4在数学推理方面的表现明显不如深度推理模型，后者普遍能够达到120分以上。这一差异强调了深度推理模型在复杂问题解决中的优势，未来在模型设计中，如何有效结合基础模型与深度推理能力将是一个重要课题。

❓

测试结果显示，OpenAI的GPT-o1模型表现最佳，平均分超过140分，智谱的GLM-Zero-Preview紧随其后，成为国产大模型第一。

参与评测的模型包括OpenAI的GPT-o1、智谱的GLM-Zero-Preview、阿里的QwQ等共13个模型。

GPT-o1模型在深度推理能力上显著提升，平均分比基础模型GPT-4高出70分，显示出更强的数学推理能力。

国产推理大模型逐渐缩小与国际领先者的差距，智谱的GLM-Zero-Preview和阿里的QwQ在测试中表现亮眼。

基础模型GPT-4在此次测试中仅获70.7分，位列末席，显示出在数学推理领域的不足。

深度推理模型普遍能够达到120+的水平，展现出强大的数学问题解决能力。

🏷️