机器之心 ·

9.11和9.9谁大？我们实测15个大模型，超半数翻车

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

大模型在简单数学题上表现不佳，无法正确回答9.11和9.9哪个更大的问题。GPT-4o、Claude-3.5-Sonnet和Gemini等模型回答错误，而百度文心一言、阿里通义千问和科大讯飞星火等模型回答正确。专家认为，大模型在处理比大小等简单数学题时依赖于预测模型的成功率，分词器的算法和机制可能导致回答错误。大模型在第二轮提问时往往能给出正确答案，提高大模型数学能力的关键在于提供高质量的数据支持。

🎯

关键要点

大模型在简单数学题上表现不佳，无法正确回答9.11和9.9哪个更大的问题。
GPT-4o、Claude-3.5-Sonnet和Gemini等模型回答错误，而百度文心一言、阿里通义千问和科大讯飞星火等模型回答正确。
专家认为，大模型在处理简单数学题时依赖于预测模型的成功率，分词器的算法和机制可能导致回答错误。
大模型在第二轮提问时往往能给出正确答案，主要原因包括预测过程的随机性和上下文理解能力。
提高大模型数学能力的关键在于提供高质量的数据支持，特别是在数学计算和逻辑推理方面。

❓

延伸问答

为什么大模型在简单数学题上表现不佳？

大模型在处理简单数学题时依赖于预测模型的成功率，分词器的算法和机制可能导致回答错误。

哪些大模型能够正确回答9.11和9.9哪个大？

百度文心一言、阿里通义千问和科大讯飞星火等模型能够正确回答。

大模型在第二轮提问时为什么能给出正确答案？

大模型在第二轮提问时通常能提供正确答案，主要是因为预测过程的随机性和上下文理解能力。

如何提高大模型的数学能力？

提高大模型数学能力的关键在于提供高质量的数据支持，特别是在数学计算和逻辑推理方面。

在测试中，哪些大模型回答错误？

GPT-4o、Claude-3.5-Sonnet和Gemini等模型在测试中回答错误。

大模型的分词器是如何影响回答的？

分词器在解析数字时可能将其辨认为日期或版本号，导致错误的比较结果。

🏷️