大模型集体失智!9.11和9.9哪个大,几乎全翻车了

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

大模型GPT-4o在比较9.11和9.9时出现错误,将9.11拆分成数字和小数点,导致认为11比9大。问题暴露了大模型在基础算数方面的不足。解决方法是向AI解释这是一个双精度浮点数。OpenAI正在测试新模型,能否解决类似问题尚不确定。

🎯

关键要点

  • 大模型GPT-4o错误地认为9.11比9.9大,暴露了其基础算数能力不足。

  • 问题的根源在于AI对小数的理解和比较方法存在缺陷。

  • 不同大模型在处理相同问题时普遍出现错误,显示出集体翻车的现象。

  • 提示工程师Riley Goodside发现了这一问题,并尝试不同提问方式以验证AI的反应。

  • 国产大模型在类似测试中表现不一,有些能正确回答,有些则依然出错。

  • AI在处理数字时,可能会将其拆分为不同的token,导致错误的比较结果。

  • 向AI解释这是一个双精度浮点数可以帮助其正确理解问题。

  • 研究表明,提问的顺序和方式对AI的理解有显著影响。

  • Zero-shot CoT思维链在此类问题中表现良好,但角色扮演提示的有效性下降。

  • OpenAI正在测试新模型,可能会改善数学问题的处理能力。

延伸问答

为什么大模型认为9.11比9.9大?

大模型在处理小数时,将9.11拆分为数字和小数点,导致错误的比较结果。

如何解决大模型在比较小数时的错误?

向AI解释这是一个双精度浮点数,可以帮助其正确理解问题。

不同大模型在处理9.11和9.9时表现如何?

大多数大模型在处理此问题时都出现了错误,显示出集体翻车的现象。

提问的方式对AI理解有何影响?

提问的顺序和方式显著影响AI的理解,明确的提问能引导AI正确比较。

国产大模型在此类测试中的表现如何?

国产大模型表现不一,有些能正确回答,有些则依然出错。

OpenAI正在测试的新模型有什么进展?

OpenAI正在测试的新模型在MATH数据集上得分超过90%,但能否解决基础算数问题尚不确定。

➡️

继续阅读