量子位 ·

AGI今天起有了量化标准！Bengio牵头定义，当前进度条58%

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

Bengio等人定义AGI为能匹配或超越受过良好教育成年人的智能。研究团队设计了500道题目评估AI的认知能力，目前主流AI如GPT-4得分27，GPT-5得分58，仍未达到AGI的100分标准，尤其在感知和记忆方面存在明显短板。

🎯

🔎

Bengio等人提出的AGI评估标准明确了智能的具体衡量方式，避免了模糊的定义。这一标准不仅关注AI在单一任务上的表现，还强调其在多个核心认知领域的全面能力，确保评估的科学性和准确性。

尽管GPT-5在知识、读写和数学等领域表现突出，但在感知和记忆方面的短板依然明显。这种不均衡的认知能力使得AI无法达到AGI的标准，反映出当前技术的局限性和未来发展的方向。

一些AI模型通过技术手段掩盖其短板，表面上看似具备多任务处理能力，但实际上仍然存在严重缺陷。这种伪全能的表现可能误导用户对AI能力的认知，强调了对AI原生认知能力评估的重要性。

❓

AGI是能匹配或超越受过良好教育成年人的认知广度和熟练度的人工智能。

GPT-4得分27，GPT-5得分58，仍未达到AGI的100分标准。

评估标准包括知识、读写、数学、临场推理、工作记忆、长时记忆存储、长时记忆提取、视觉、听觉和速度等领域。

当前AI在感知和记忆领域存在明显短板，尤其在长时记忆存储方面得分为0。

评估体系参考了CHC理论，设计了500道题目，专注于AI的原生认知能力。

部分大模型通过技术手段掩盖短板，无法实现真正的长期记忆，表现出伪全能的特征。

🏷️