大模型集体失智!9.11和9.9哪个大,几乎全翻车了
💡
原文中文,约2600字,阅读约需6分钟。
📝
内容提要
大模型集体失智,9.11和9.9的大小比较出错。大模型无法理解算数问题,需要向AI解释明白是双精度浮点数。检验提示词技巧的试金石。OpenAI秘密模型“草莓”更新,新模型在MATH数据集上得分超过90%。
🎯
关键要点
-
大模型在比较9.11和9.9时出现错误,普遍认为9.11更大。
-
AI在处理简单算数问题时表现不佳,显示出常识性错误。
-
提示词工程师Riley Goodside发现大模型普遍翻车,尝试不同提问方式仍未能解决问题。
-
国产大模型在类似测试中也表现不佳,部分模型能正确回答,但大多数仍然出错。
-
大模型的理解方式受到tokenizer的影响,导致错误的比较结果。
-
AI需要明确的上下文来理解数字的比较,尤其是涉及双精度浮点数时。
-
研究表明,提问方式对大模型的理解有显著影响,Zero-shot CoT思维链有效。
-
OpenAI秘密模型“草莓”更新,MATH数据集得分超过90%,但能否解决简单算数问题仍存疑。
➡️