PaperBench是一个基准,用于评估AI代理复制前沿AI研究的能力。代理需从零开始复制20篇ICML 2024论文,开发代码并执行实验。评分标准详细,PaperBench包含8316个可评分任务。通过LLM评估复制尝试,Claude 3.5 Sonnet的平均复制得分为21.0%。顶尖ML博士的尝试表明,模型尚未超越人类基线。我们开源代码以促进未来研究。
完成下面两步后,将自动完成登录并继续当前操作。