大模型集体失智!9.11和9.9哪个大,几乎全翻车了
💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
大模型GPT-4o在比较9.11和9.9时出现错误,将9.11拆分成数字和小数点,导致认为11比9大。问题暴露了大模型在基础算数方面的不足。解决方法是向AI解释这是一个双精度浮点数。OpenAI正在测试新模型,能否解决类似问题尚不确定。
🎯
关键要点
- 大模型GPT-4o错误地认为9.11比9.9大,暴露了其基础算数能力不足。
- 问题的根源在于AI对小数的理解和比较方法存在缺陷。
- 不同大模型在处理相同问题时普遍出现错误,显示出集体翻车的现象。
- 提示工程师Riley Goodside发现了这一问题,并尝试不同提问方式以验证AI的反应。
- 国产大模型在类似测试中表现不一,有些能正确回答,有些则依然出错。
- AI在处理数字时,可能会将其拆分为不同的token,导致错误的比较结果。
- 向AI解释这是一个双精度浮点数可以帮助其正确理解问题。
- 研究表明,提问的顺序和方式对AI的理解有显著影响。
- Zero-shot CoT思维链在此类问题中表现良好,但角色扮演提示的有效性下降。
- OpenAI正在测试新模型,可能会改善数学问题的处理能力。
➡️