DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

AI大模型已超越人类水平,Center for AI Safety与Scale AI联合推出新基准HLE(人类的最后考试),包含3000个高难度问题,旨在评估模型能力。目前模型在HLE上的表现不佳,准确率低于10%。该基准强调多模态问题,需高水平专业知识,未来可能推动模型性能提升。

🎯

关键要点

  • AI大模型在多个任务上超越人类水平,进入与AI共生的时代。
  • 现有基准无法跟上AI发展的速度,MMLU基准的准确度已超过90%。
  • Center for AI Safety与Scale AI联合推出新基准HLE,旨在评估模型能力。
  • HLE包含3000个高难度问题,涉及数学、人文科学和自然科学等多个学科。
  • HLE问题主要为多项选择题和简单问答题,答案明确且易于验证。
  • HLE基准问题由全球近1000名专家贡献,确保问题质量和专业性。
  • HLE包含精确匹配问题和多项选择题,10%的问题需要理解文本和图像。
  • 为吸引高质量投稿,HLE设立50万美元奖金池,鼓励专家参与。
  • 当前SOTA模型在HLE上的表现不佳,准确率低于10%。
  • 模型的低准确度部分由于数据集设计,旨在过滤掉现有模型能回答的问题。
  • 模型的校准误差较大,常以高置信度提供错误答案,无法识别能力范围。
  • 未来模型需提升准确度和计算优化,以提高推理能力。
  • 预计到2025年底,模型在HLE上的准确度可能超过50%。
  • HLE测试结构化学术问题,不代表模型具备自主研究能力或通用人工智能。
➡️

继续阅读