量子位 ·

大模型智障检测+1：Strawberry有几个r纷纷数不清

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

最近新模型智障检测出现问题，无法正确数出单词“Strawberry”中的“r”。全球网友尝试各种提示词技巧教会大模型数“r”，成功方法包括使用漫画《死亡笔记中》角色“L”的方法和DeepMind的Self-Discover论文中的方法。有人还尝试使用AI想象一个从0开始的内存计数器来计算文档中“strawberry”出现的次数。ChatGPT和谷歌Gemini也有一定概率能答对。国内选手在测试中表现稳定。大模型公司希望在下个版本中解决这个问题。

🎯

关键要点

大模型在数单词'Strawberry'中的'r'时出现错误，引发讨论。
GPT-4o和Claude 3.5 Sonnet在此问题上表现不佳，Llama-3.1 405B能发现并改正错误。
网友们尝试多种提示词技巧教会大模型数'r'，包括使用漫画《死亡笔记》中角色'L'的方法。
DeepMind的Self-Discover论文中的方法被复现，分为两个阶段：自我发现推理步骤和具体执行。
有网友提出使用内存计数器的方法来计算单词出现次数，评论称类似于用英语编程。
ChatGPT和谷歌Gemini有小概率能直接答对，国内选手在测试中表现稳定。
不同AI模型在处理字符时的token化方式不同，导致数'r'的问题。
使用特殊字符提问可以帮助AI更好地理解问题，调用代码解决问题是简单有效的方法。
希望大模型公司在下个版本中解决数'r'的问题。

❓

延伸问答

为什么大模型在数单词'Strawberry'中的'r'时出现错误？

大模型在处理字符时的token化方式不同，导致数'r'的问题。

网友们使用了哪些方法来教会大模型数'r'？

网友们尝试了多种提示词技巧，包括使用漫画《死亡笔记》中角色'L'的方法和DeepMind的Self-Discover论文中的方法。

哪些AI模型在数'r'时表现较好？

Llama-3.1 405B能发现并改正错误，而国内选手在测试中表现稳定。

如何使用内存计数器来计算单词出现次数？

可以让AI想象一个从0开始的内存计数器，每次遇到该单词就往上加。

ChatGPT和谷歌Gemini在数'r'时的表现如何？

ChatGPT有小概率能直接答对，而谷歌Gemini大约有三分之二的概率能答对。

大模型公司对数'r'问题有什么计划？

大模型公司希望在下个版本中解决数'r'的问题。

🏷️