o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

o3在ARC-AGI挑战中的表现不佳,主要是因为题目规模过大。英国工程师米哥指出,网格越大,大模型的推理能力越差,尤其在1024个像素时表现明显下降。这表明ARC挑战未能准确反映大模型的真实能力,且大模型的信息处理方式与人类存在差异。

🎯

关键要点

  • o3在ARC-AGI挑战中的表现不佳,主要是因为题目规模过大。
  • 英国工程师米哥发现,网格规模越大,大模型的表现越差,尤其在1024个像素时表现明显下降。
  • ARC挑战未能准确反映大模型的真实能力,许多模型被低估,o3则被高估。
  • 大模型在处理问题时与人类的思考方式存在差异,尤其在面对大规模网格时。
  • 人类能够更好地理解视觉信息和位置关系,而大模型处理信息时是以一维格式进行的。
  • 观察问题的维度影响了大模型的成绩,ARC任务并不适合大模型。
  • ARC-AGI的下一代ARC-AGI-2即将推出,可能对o3构成重大挑战。
➡️

继续阅读