Meta发布了Llama 4系列AI模型,参数高达2万亿,引发了关于性能和发布时间的讨论。亚马逊推出了NOVA Act,一个可控制网页浏览器的AI代理。OpenAI获得了软银主导的400亿美元融资,显示出其技术进步和战略转变。
PaperBench是一个基准,用于评估AI代理复制前沿AI研究的能力。代理需从零开始复制20篇ICML 2024论文,开发代码并执行实验。评分标准详细,PaperBench包含8316个可评分任务。通过LLM评估复制尝试,Claude 3.5 Sonnet的平均复制得分为21.0%。顶尖ML博士的尝试表明,模型尚未超越人类基线。我们开源代码以促进未来研究。
完成下面两步后,将自动完成登录并继续当前操作。