量子位 ·

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

o3在ARC-AGI挑战中的表现不佳，主要是因为题目规模过大。英国工程师米哥指出，网格越大，大模型的推理能力越差，尤其在1024个像素时表现明显下降。这表明ARC挑战未能准确反映大模型的真实能力，且大模型的信息处理方式与人类存在差异。

🎯

🔎

o3在ARC-AGI挑战中的表现揭示了大模型在处理大规模网格时的局限性。随着网格规模的增加，模型的推理能力显著下降，这表明大模型在面对复杂视觉信息时，仍然无法与人类的直观理解相提并论。

米哥的研究指出，ARC挑战并不适合大模型，因为其设计未能考虑到模型处理信息的方式。大模型在一维格式下进行推理，而人类则能更好地理解二维空间中的位置关系，这导致了模型在大规模任务中的表现不佳。

随着ARC-AGI-2的推出，o3可能面临更大的挑战。早期测试显示，o3的得分可能会大幅下降，这提示我们在评估大模型时，需关注其在不同任务和规模下的表现差异，以避免对其能力的误判。

❓

o3在ARC-AGI挑战中的表现不佳，主要是因为题目规模过大。

大模型在处理大规模网格时表现较差是因为它们以一维格式处理信息，无法有效理解二维空间中的位置关系。

ARC挑战未能准确反映大模型的真实能力，许多模型被低估，而o3则被高估。

人类在解决ARC问题时能够更好地理解视觉信息和位置关系，而大模型则依赖于一维的token处理方式。

ARC-AGI-2的早期测试表明，它将对o3构成重大挑战，o3的得分可能会降低到30%以下。

米哥发现网格规模越大，大模型的表现越差，尤其在达到1024个像素时表现明显下降。

🏷️