机器之心 ·

以一敌五、屠榜登顶的谷歌Gemini 2.5，居然栽在小学数学题上

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

OpenAI推出了GPT-4o，而谷歌发布了Gemini 2.5，后者在高级推理和编码方面表现优异，正确率达到80%。相比之下，OpenAI的o3-mini和GPT-4.5在测试中表现不佳，正确率为0。

🎯

🔎

尽管Gemini 2.5在高级推理和编码方面表现出色，正确率达到80%，但在处理简单的数学题时也出现了失误。这表明，尽管其逻辑推理能力强大，但在某些情况下仍可能受到限制，用户在使用时需谨慎评估其适用性。

在此次测试中，Gemini 2.5的表现明显优于OpenAI的o3-mini和GPT-4.5，这两款模型在所有题目中均未能正确回答。这样的对比凸显了Gemini 2.5在逻辑推理能力上的优势，用户在选择AI工具时可考虑其在特定任务中的表现。

虽然Gemini 2.5在逻辑推理方面表现良好，但在实际应用中，用户应关注其对问题的理解能力。某些题目可能会因表述不清或逻辑复杂而导致错误答案，因此在依赖AI进行决策时，仍需保持一定的审慎态度。

❓

Gemini 2.5在高级推理和编码方面表现优异，正确率达到80%。

Gemini 2.5在测试中表现优异，而OpenAI的o3-mini和GPT-4.5在所有测试中均未能正确回答，正确率为0。

普通用户可以在AI Studio中免费使用Gemini 2.5 Pro。

Gemini 2.5在多个逻辑推理题目中表现优异，能够抓住关键点。

在处理某些数学题时，Gemini 2.5也会翻车，但总体正确率仍然较高。

Claude 3.7 Sonnet和Grok3在某些题目中表现良好，但整体上不如Gemini 2.5。

🏷️