量子位 ·

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

UC伯克利推出了“智能体最后的考试”基准测试，评估AI Agent在实际工作中的表现。测试结果显示，最强的Claude Fable 5和GPT 5.5在最难档次中均未通过，而GPT 5.5在较低难度中稍胜Fable 5。该测试覆盖55个行业，强调了AI在真实工作中的能力及其局限性。

🎯

🔎

UC伯克利的“智能体最后的考试”强调了AI在实际工作中的表现与理论能力之间的差距。尽管GPT 5.5在较低难度中表现稍好，但在最难档次中，所有主流模型的通过率都极低，显示出AI在复杂任务中的局限性。

测试结果揭示了不同AI模型在完成任务时的成本和效率差异。Claude Fable 5的运行成本远高于GPT 5.5，但其表现却不如后者，这提示企业在选择AI工具时需考虑性价比。

ALE的设计与以往的基准测试不同，采用真实项目任务来评估AI的实际操作能力。这种方法不仅提高了测试的真实性，也避免了模型通过“背题”获得高分的情况，反映了AI评估标准的进步。

❓

“智能体最后的考试”是由UC伯克利推出的基准测试，旨在评估AI Agent在实际工作中的表现。

测试结果显示，GPT 5.5以24.0%的通过率位居第一，Claude Fable 5以22.0%位居第三，均未通过最难档次。

GPT 5.5在较低难度中稍胜Fable 5，可能与其在不同框架下的优化有关。

ALE的题目来自真人专家已完成的项目，确保了测试的真实性和有效性。

测试结果显示，AI Agent在没有真正验证工作成果的情况下，常常会错误地宣布完成任务。

Claude Fable 5的表现不佳可能与其在敏感领域被降级有关，导致其在考试中表现不如预期。

🏷️