机器之心 ·

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

Scale AI 和 AI 安全中心推出的 ENIGMAEVAL 基准揭示了大语言模型在高难度推理中的局限性。测试显示，主流模型在普通谜题上的准确率仅为 7%，而在困难谜题上为 0%。该基准包含 1184 道谜题，旨在评估模型的多模态推理能力，突显了当前 AI 理解世界的不足。

🎯

🔎

ENIGMAEVAL基准测试揭示了当前大语言模型在高难度推理方面的显著不足。尽管这些模型在普通谜题上表现稍好，但在困难谜题上完全失利，准确率为0%。这表明，AI在复杂推理任务中仍然无法与人类相提并论，反映出其理解和处理复杂信息的能力亟待提升。

研究者通过ENIGMAEVAL基准测试了模型的多模态推理能力，发现模型在处理原始PDF格式的谜题时性能显著下降。这表明，尽管模型在文本解析上有所优化，但在复杂文档的理解和解析能力上仍存在局限，未来的研究需要关注如何提升AI在多模态信息处理中的表现。

ENIGMAEVAL基准的设计旨在评估模型的端到端推理能力，使用原始多模态问题和高质量转录版本进行对比。这种设计不仅帮助研究者识别模型的性能瓶颈，也为未来的AI推理能力提升提供了重要的参考依据，强调了基准测试在AI发展中的重要性。

❓

ENIGMAEVAL基准旨在评估大语言模型的多模态推理能力，特别是在高难度推理中的表现。

主流模型在普通谜题上的准确率仅为7%，而在困难谜题上则为0%。

ENIGMAEVAL基准包含1184道谜题。

ENIGMAEVAL基准的谜题分为普通谜题（949道）和困难谜题（235道）两类。

研究者使用原始多模态问题和高质量的人工转录版本来评估模型的推理能力。

ENIGMAEVAL基准比「人类的最后考试」更苛刻，专注于高难度推理问题的评估。

🏷️