量子位 ·

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

Sakana AI发布的Sudoku-Bench测试显示，AI模型在数独问题上的整体正确率仅为15%，而9×9难度的o3 Mini High模型正确率仅为2.9%。该测试旨在评估AI的创造性推理能力，传统数独对模型而言过于简单，无法有效应对新规则的“变异数独”挑战。

🎯

🔎

当前大模型在数独问题上的表现不佳，尤其是在面对新规则的变异数独时，正确率低至2.9%。这表明，AI模型在逻辑推理方面仍存在显著的局限性，尤其是依赖记忆而非真正的推理能力。

变异数独的设计旨在考验AI的创造性推理能力，要求模型进行多步骤的逻辑推导。与传统数独相比，这种新形式的挑战更能反映出AI在复杂问题解决中的不足，值得关注。

Sudoku-Bench作为新的基准测试，提供了从简单到复杂的数独问题，旨在评估AI的推理能力。其结果不仅为AI研究提供了重要数据，也为未来的模型改进指明了方向。

❓

AI模型在数独问题上的整体正确率为15%。

o3 Mini High模型在9×9数独中的正确率仅为2.9%。

Sudoku-Bench测试旨在评估AI的创造性推理能力。

传统数独对大模型来说可能太简单，因为它们往往通过记忆标准答案完成任务，而不是运用逻辑推理能力。

变异数独需要多步骤和创造性的推理技巧，且只有一个正确答案，无法通过记忆解决。

Sakana AI由前谷歌研究人员Llion Jones和David Ha于2023年成立。

🏷️