OpenAI ·

PaperBench：评估AI复制AI研究的能力

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

PaperBench是一个基准，用于评估AI代理复制前沿AI研究的能力。代理需从零开始复制20篇ICML 2024论文，开发代码并执行实验。评分标准详细，PaperBench包含8316个可评分任务。通过LLM评估复制尝试，Claude 3.5 Sonnet的平均复制得分为21.0%。顶尖ML博士的尝试表明，模型尚未超越人类基线。我们开源代码以促进未来研究。

🎯

关键要点

PaperBench是一个评估AI代理复制前沿AI研究能力的基准。
代理需从零开始复制20篇ICML 2024论文，包括理解论文贡献、开发代码和执行实验。
评分标准详细，PaperBench包含8316个可评分任务。
评分标准与每篇ICML论文的作者共同开发，以确保准确性和现实性。
开发了基于LLM的评估工具，自动评分复制尝试，并创建了独立的评估基准。
在PaperBench上评估了多个前沿模型，Claude 3.5 Sonnet的平均复制得分为21.0%。
顶尖ML博士的尝试表明，模型尚未超越人类基线。
我们开源代码以促进未来研究，帮助理解AI代理的工程能力。

❓

延伸问答

什么是PaperBench？

PaperBench是一个基准，用于评估AI代理复制前沿AI研究的能力。

PaperBench的评分标准是如何制定的？

评分标准与每篇ICML论文的作者共同开发，以确保准确性和现实性。

在PaperBench上，AI代理需要完成哪些任务？

AI代理需从零开始复制20篇ICML 2024论文，包括理解论文贡献、开发代码和执行实验。

Claude 3.5 Sonnet在PaperBench上的表现如何？

Claude 3.5 Sonnet的平均复制得分为21.0%。

PaperBench的任务总数是多少？

PaperBench包含8316个可评分任务。

为什么要开源PaperBench的代码？

开源代码是为了促进未来研究，帮助理解AI代理的工程能力。

🏷️

继续阅读

GitHub Agentic Workflows的安全架构
GitHub的Agentic Workflows采用分层安全架构，假设AI代理可能被攻破。设计包括隔离组件、限制权限和审查输出，以防止敏感信息泄露和恶意操...
构建代理云：我们在2026代理周期间推出的所有内容
在代理周期间，Cloudflare推出了支持大规模代理的云基础设施，包含可扩展的计算环境、安全的私有网络、持久的代理内存和多渠道支持。同时发布了Agent...
在苹果新 CEO 上任前，我们和他聊了聊 AI 与 iPhone
苹果硬件工程副总裁John Ternus将在2024年接任CEO。他在iPhone 16发布会后接受采访，讨论了相机控制的设计选择，强调了机械按键的重要性...
【Rust日报】2026-04-20 cargo-aprz 1.0.0 发布 - Rust 依赖质量评估工具
cargo-aprz 1.0.0 是一个 Rust 依赖质量评估工具，通过多维度指标帮助开发者了解 crate 的质量。qusql 是编译时 SQL 检查...
AI抵制浪潮兴起：数据投毒与虚假信息如何反击模型训练
人们通过投喂垃圾数据和散布虚假信息来抵制AI数据抓取，旨在提高数据采集成本，迫使科技公司改变做法。Reddit社区“毒泉”鼓励用户向爬虫提供无用数据，以影...
AI产品竞争终局：上下文Context才是真正战场
AI的真正价值在于上下文，而非模型本身。企业在AI应用中失败，往往是因为未重视上下文的构建。有效使用AI需要将隐性知识结构化为可复用的技能框架，以提升团队...