Scale AI 和 AI 安全中心推出的 ENIGMAEVAL 基准揭示了大语言模型在高难度推理中的局限性。测试显示,主流模型在普通谜题上的准确率仅为 7%,而在困难谜题上为 0%。该基准包含 1184 道谜题,旨在评估模型的多模态推理能力,突显了当前 AI 理解世界的不足。
完成下面两步后,将自动完成登录并继续当前操作。