AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

Scale AI 和 AI 安全中心推出的 ENIGMAEVAL 基准揭示了大语言模型在高难度推理中的局限性。测试显示,主流模型在普通谜题上的准确率仅为 7%,而在困难谜题上为 0%。该基准包含 1184 道谜题,旨在评估模型的多模态推理能力,突显了当前 AI 理解世界的不足。

🎯

关键要点

  • Scale AI 和 AI 安全中心推出的 ENIGMAEVAL 基准揭示了大语言模型在高难度推理中的局限性。

  • ENIGMAEVAL 基准包含 1184 道谜题,旨在评估模型的多模态推理能力。

  • 主流模型在普通谜题上的准确率仅为 7%,而在困难谜题上为 0%。

  • 研究者使用原始多模态问题和高质量的人工转录版本来评估模型的推理能力。

  • ENIGMAEVAL 将与「人类的最后考试」一起构建全新的 LLM 基准,揭示当前大语言模型的局限性。

  • 模型在解答谜题方面的表现不佳,尤其是在困难难度部分完全失败。

  • 研究者发现,模型在处理复杂文档时的性能受限于 OCR 和解析能力。

延伸问答

ENIGMAEVAL基准的主要目的是什么?

ENIGMAEVAL基准旨在评估大语言模型的多模态推理能力,特别是在高难度推理中的表现。

主流大语言模型在ENIGMAEVAL基准上的表现如何?

主流模型在普通谜题上的准确率仅为7%,而在困难谜题上则为0%。

ENIGMAEVAL基准包含多少道谜题?

ENIGMAEVAL基准包含1184道谜题。

ENIGMAEVAL基准的谜题难度如何分类?

ENIGMAEVAL基准的谜题分为普通谜题(949道)和困难谜题(235道)两类。

研究者如何评估模型的推理能力?

研究者使用原始多模态问题和高质量的人工转录版本来评估模型的推理能力。

ENIGMAEVAL基准与其他基准有什么不同?

ENIGMAEVAL基准比「人类的最后考试」更苛刻,专注于高难度推理问题的评估。

➡️

继续阅读