大模型智障检测+1:Strawberry有几个r纷纷数不清

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

最近新模型智障检测出现问题,无法正确数出单词“Strawberry”中的“r”。全球网友尝试各种提示词技巧教会大模型数“r”,成功方法包括使用漫画《死亡笔记中》角色“L”的方法和DeepMind的Self-Discover论文中的方法。有人还尝试使用AI想象一个从0开始的内存计数器来计算文档中“strawberry”出现的次数。ChatGPT和谷歌Gemini也有一定概率能答对。国内选手在测试中表现稳定。大模型公司希望在下个版本中解决这个问题。

🎯

关键要点

  • 大模型在数单词'Strawberry'中的'r'时出现错误,引发讨论。
  • GPT-4o和Claude 3.5 Sonnet在此问题上表现不佳,Llama-3.1 405B能发现并改正错误。
  • 网友们尝试多种提示词技巧教会大模型数'r',包括使用漫画《死亡笔记》中角色'L'的方法。
  • DeepMind的Self-Discover论文中的方法被复现,分为两个阶段:自我发现推理步骤和具体执行。
  • 有网友提出使用内存计数器的方法来计算单词出现次数,评论称类似于用英语编程。
  • ChatGPT和谷歌Gemini有小概率能直接答对,国内选手在测试中表现稳定。
  • 不同AI模型在处理字符时的token化方式不同,导致数'r'的问题。
  • 使用特殊字符提问可以帮助AI更好地理解问题,调用代码解决问题是简单有效的方法。
  • 希望大模型公司在下个版本中解决数'r'的问题。
➡️

继续阅读