量子位 ·

7个月翻一番！AI agent能力飙升，METR报告揭示指数级进化规律

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

根据METR报告，AI代理的能力每7个月翻一番，涵盖编程和数学等领域，显示出指数级进化。报告指出，AI在多项任务中表现优异，时间范围的增长反映了其智能水平的提升，未来可能实现更复杂任务的自动化。

🎯

🔎

根据METR报告，AI代理的能力每7个月翻一番，显示出其在编程、数学等领域的快速进步。这种指数级的增长意味着AI在未来将能够处理更复杂的任务，可能会改变各行业的工作方式。

报告中提到的time horizon是AI在任务上可稳定完成的时间跨度，越长意味着任务越复杂。理解这一概念有助于评估AI在不同领域的应用潜力，尤其是在需要更高智能水平的任务中。

METR报告选取了9个基准测试来评估AI的能力，显示出不同任务的time horizon差异超过100倍。这表明，AI在某些领域的表现可能远超其他领域，提醒我们在评估AI能力时需考虑任务的复杂性和多样性。

❓

根据METR报告，AI代理的能力每7个月翻一番。

time horizon是指AI在任务上可稳定完成的时间跨度，越长表示任务越复杂。

报告选取了9个基准测试，包括软件开发、计算机使用、数学竞赛等。

在自动驾驶任务中，AI的性能增长速度较慢，约20个月翻一番。

当前主流大模型在METR任务上的表现高于趋势水平，翻倍时间中位数约为4个月。

未来几年内，AI可能完成几天到几周的复杂任务。

🏷️