量子位 ·

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

大模型GPT-4o在比较9.11和9.9时出现错误，将9.11拆分成数字和小数点，导致认为11比9大。问题暴露了大模型在基础算数方面的不足。解决方法是向AI解释这是一个双精度浮点数。OpenAI正在测试新模型，能否解决类似问题尚不确定。

🎯

关键要点

大模型GPT-4o错误地认为9.11比9.9大，暴露了其基础算数能力不足。
问题的根源在于AI对小数的理解和比较方法存在缺陷。
不同大模型在处理相同问题时普遍出现错误，显示出集体翻车的现象。
提示工程师Riley Goodside发现了这一问题，并尝试不同提问方式以验证AI的反应。
国产大模型在类似测试中表现不一，有些能正确回答，有些则依然出错。
AI在处理数字时，可能会将其拆分为不同的token，导致错误的比较结果。
向AI解释这是一个双精度浮点数可以帮助其正确理解问题。
研究表明，提问的顺序和方式对AI的理解有显著影响。
Zero-shot CoT思维链在此类问题中表现良好，但角色扮演提示的有效性下降。
OpenAI正在测试新模型，可能会改善数学问题的处理能力。

❓

延伸问答

为什么大模型认为9.11比9.9大？

大模型在处理小数时，将9.11拆分为数字和小数点，导致错误的比较结果。

如何解决大模型在比较小数时的错误？

向AI解释这是一个双精度浮点数，可以帮助其正确理解问题。

不同大模型在处理9.11和9.9时表现如何？

大多数大模型在处理此问题时都出现了错误，显示出集体翻车的现象。

提问的方式对AI理解有何影响？

提问的顺序和方式显著影响AI的理解，明确的提问能引导AI正确比较。

国产大模型在此类测试中的表现如何？

国产大模型表现不一，有些能正确回答，有些则依然出错。

OpenAI正在测试的新模型有什么进展？

OpenAI正在测试的新模型在MATH数据集上得分超过90%，但能否解决基础算数问题尚不确定。

🏷️

标签

9.11 9.9 GPT-4o 双精度浮点数大模型

➡️

继续阅读

苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
我在WAIC 2026看见的十大趋势
没有人因此热情减退
Skill、Subagent 与 Agent 究竟是什么？从一个月度总结实战谈 AI 原生架构
本文通过一个真实的“仓库月度自动统计与总结报告”落地需求，深入剖析 Skill、Subagent 和 Agent 三者的本质区别、协作模式与持久化原理，帮...
OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
懂你、能交付、专业操作：金山办公田然给出AI办公助理的三项标准
iPhone能月租了？曝苹果拟推出硬件租赁计划以刺激销量
【TechWeb】7月22日消息，在美国，官方月租iPhone、iPad将成为现实。据多家媒体报道，苹果公司将于7月28日在美国推出一项名为“苹果升级计划...