机器之心 ·

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

国产大模型在数学推理方面有所进展，但在实际应用题上仍面临挑战。Kimi的k0-math和阿里的QwQ-32B-preview表现较好，而OpenAI的模型则频繁出错。总体而言，国产模型在常规数学题上表现稳定，但在实际问题上仍显不足。

🎯

🔎

国产大模型在常规数学题上表现稳定，尤其是Kimi的k0-math和阿里的QwQ-32B-preview，显示出较强的解题能力。然而，在实际应用题上，它们仍然面临挑战，尤其是涉及生活实际的题目。这表明，尽管技术在进步，但在复杂情境下的应用能力仍需提升。

不同大模型在解题时的策略各有特点。Kimi的k0-math和阿里QwQ-32B-preview在得出答案后会进行多次验证，而学而思九章大模型则注重题目的分析和知识归纳。这种策略上的差异可能影响模型在不同类型题目上的表现，用户在选择时应考虑这些特点。

小学数学题虽然看似简单，但对大模型来说却是一个不小的挑战。许多模型在处理这类题目时频频出错，反映出它们在基础逻辑和实际应用能力上的不足。这提醒我们，在教育和应用AI时，基础知识的掌握仍然至关重要。

❓

国产大模型在数学推理方面有所进展，但在实际应用题上仍面临挑战。

Kimi的k0-math和阿里的QwQ-32B-preview在数学题目上表现较好，尤其在常规数学题上稳定。

OpenAI的模型在数学题上频繁出错，尤其是在实际应用题上表现不佳。

小学数学题对大模型的挑战较大，许多模型在此类题目上表现不佳。

学而思九章大模型提供了分析、解题和知识归纳的综合能力，适合家长辅导孩子。

夸克AI搜题提供多种解题思路，并支持进一步的知识点交流。

🏷️