小红花·文摘

Sakana AI发布的Sudoku-Bench测试显示，AI模型在数独问题上的整体正确率仅为15%，而9×9难度的o3 Mini High模型正确率仅为2.9%。该测试旨在评估AI的创造性推理能力，传统数独对模型而言过于简单，无法有效应对新规则的“变异数独”挑战。