程序师 ·

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

大模型集体失智，9.11和9.9的大小比较出错。大模型无法理解算数问题，需要向AI解释明白是双精度浮点数。检验提示词技巧的试金石。OpenAI秘密模型“草莓”更新，新模型在MATH数据集上得分超过90%。

🎯

关键要点

大模型在比较9.11和9.9时出现错误，普遍认为9.11更大。
AI在处理简单算数问题时表现不佳，显示出常识性错误。
提示词工程师Riley Goodside发现大模型普遍翻车，尝试不同提问方式仍未能解决问题。
国产大模型在类似测试中也表现不佳，部分模型能正确回答，但大多数仍然出错。
大模型的理解方式受到tokenizer的影响，导致错误的比较结果。
AI需要明确的上下文来理解数字的比较，尤其是涉及双精度浮点数时。
研究表明，提问方式对大模型的理解有显著影响，Zero-shot CoT思维链有效。
OpenAI秘密模型“草莓”更新，MATH数据集得分超过90%，但能否解决简单算数问题仍存疑。

❓

延伸问答

为什么大模型在比较9.11和9.9时会出错？

大模型在处理数字比较时，受到tokenizer的影响，导致错误的理解和比较结果。

如何提高大模型在算数问题上的准确性？

需要向AI明确解释上下文，特别是涉及双精度浮点数时，以帮助其正确理解问题。

Riley Goodside在测试大模型时发现了什么？

他发现大模型在比较简单数字时普遍出错，尝试不同提问方式仍未能解决问题。

国产大模型在类似测试中的表现如何？

国产大模型的表现也不佳，大多数模型在比较9.11和9.9时出现错误，少数模型能正确回答。

OpenAI的新模型“草莓”有什么进展？

OpenAI的秘密模型“草莓”在MATH数据集上得分超过90%，但能否解决简单算数问题仍存疑。

提问方式对大模型的理解有何影响？

研究表明，提问方式显著影响大模型的理解，使用Zero-shot CoT思维链可以提高正确率。

🏷️

标签

9.11 9.9 大模型失智算数问题

➡️

继续阅读

OpenAI built support agents for its own customer service line, now it hopes big enterprises will trust them too
The general consensus emerging across the AI and industrial spheres is that t...
Building a serverless AI assistant at Pelago: concept to care in two weeks
Healthcare organizations face a critical scaling challenge – how to maintain ...
Visual Studio Code 1.130（Insiders）
Visual Studio Code 1.130 Insiders版本发布，新增功能更新。用户可通过提交日志和已关闭问题列表跟踪进展，鼓励大家尽快尝试新特性。
Visual Studio Code 1.131 (Insiders)
Learn what's new in Visual Studio Code 1.131 (Insiders) Read the full article
“Every few months, a new model made part of our roadmap unnecessary”: Why Mendral’s founders gave up their startup for Anthropic
Anthropic is bringing the team behind AI startup Mendral on board to strength...
Apple is reportedly testing a MacBook Neo with more RAM
Following the MacBook Neo's huge popularity so far, Apple is reportedly d...