Micropaper ·

一分钟读论文：《Humanity’s Last Exam：评估 AI 能力的专家级学术问题基准》

💡 原文中文，约900字，阅读约需3分钟。

📝

内容提要

新研究提出“人类最后考试”（HLE），由近1000名专家设计2500道难题，以评估AI的深度理解能力。结果显示，当前AI表现不佳，预计到2025年可达到50%的准确率。HLE重新定义了AI评估标准，强调人类专业知识的独特性。

🎯

❓

人类最后考试（HLE）是一个由近1000名专家设计的2500道难题的基准测试，旨在评估AI的深度理解能力。

HLE的设计理念包括部分题目公开，大部分题目隐藏，以防止模型记忆，确保测试的长期有效性。

当前AI在HLE上的表现极差，显示出其在深度理解和专业知识上的局限性。

HLE重新定义了AI评估标准，从传统的考试转向真正测试专家级理解的基准。

HLE的设计涉及近1000名来自不同领域的专家，展示了人类集体智慧的力量。

研究人员预测到2025年，AI在HLE上的准确率可能超过50%。

🏷️

教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...
Azure DevOps与GitHub：迈向AI时代
AI正在改变软件的规划、构建和审查方式。GitHub推出了智能开发功能，支持团队在规划、编码和安全方面的协作。企业可通过“企业实时迁移”轻松将多个代码库迁...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
OpenAI挖走中科大少年班校友！12岁上大学，哈佛史上最年轻正教授
尹希，哈佛最年轻华人正教授，已加盟OpenAI，参与AI与理论物理研究。他认为AI将加速物理研究，带来突破。苏炜杰也在学术休假期间加入OpenAI。业内对...
微软Surface Laptop Ultra和Surface Dev Box的首次亮相
微软推出了Surface Laptop Ultra和Surface RTX Spark Dev Box，均搭载Nvidia的RTX Spark芯片。Sur...