机器之心 ·

DeepSeek-R1、o1都低于10%，人类给AI的「最后考试」来了，贡献者名单长达两页

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

AI大模型已超越人类水平，Center for AI Safety与Scale AI联合推出新基准HLE（人类的最后考试），包含3000个高难度问题，旨在评估模型能力。目前模型在HLE上的表现不佳，准确率低于10%。该基准强调多模态问题，需高水平专业知识，未来可能推动模型性能提升。

🎯

🔎

HLE基准的推出旨在填补现有评估工具的空白，特别是在AI快速发展的背景下。通过设定高难度的多模态问题，HLE不仅考察模型的知识广度，还强调其推理能力。这种设计有助于推动AI模型在复杂问题上的性能提升，促进更高水平的研究和应用。

当前SOTA模型在HLE上的表现不佳，准确率低于10%。这反映出模型在处理高难度问题时的局限性，尤其是在推理和校准方面。模型常常以高置信度提供错误答案，显示出其无法有效识别能力范围。这一现象提醒研究者在使用AI时需谨慎，避免过度依赖模型的输出。

尽管目前模型在HLE上的表现不理想，但预计到2025年底，准确度有望超过50%。这一预期表明，随着技术的进步和数据集的优化，AI模型的推理能力将逐步提升。然而，HLE并不代表模型具备自主研究能力，未来的研究仍需关注模型在开放式问题和创造性解决方案上的表现。

❓

HLE基准旨在评估AI模型的能力，特别是在多模态问题上的表现。

HLE基准包含3000个高难度问题，涉及数学、人文科学和自然科学等多个学科。

当前的SOTA模型在HLE上的准确率低于10%，表现不佳。

HLE基准的问题由近1000名专家贡献，确保了问题的质量和专业性。

设立奖金池是为了吸引高质量的投稿，鼓励专家参与问题的贡献。

预计到2025年底，模型在HLE上的准确度可能超过50%。

🏷️