机器之心 ·

OpenAI的AI复现论文新基准，Claude拿了第一名

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

Sakana AI的AI Scientist-v2通过了ICLR会议的同行评审，成为首篇由AI撰写的科研论文。OpenAI推出PaperBench基准测试，评估AI在复现机器学习研究中的能力。研究表明，AI在复现论文方面表现良好，但长期任务执行能力仍需改进。

🎯

🔎

Sakana AI的AI Scientist-v2通过同行评审，标志着AI在科研领域的突破。这一进展不仅展示了AI的写作能力，也引发了对AI自主研究能力的深入探讨，可能改变科研的传统模式。

OpenAI推出的PaperBench基准测试为评估AI复现研究能力提供了系统化的方法。通过与原论文作者合作制定评分标准，确保了评估的公正性和准确性，这对未来AI在科研中的应用具有重要意义。

尽管Claude 3.5 Sonnet在复现能力上表现良好，但当前模型在执行长期任务时仍显不足。这表明，AI在复杂任务的规划和执行上仍需进一步优化，以提升其在科研中的实际应用能力。

❓

Sakana AI的AI Scientist-v2通过了ICLR会议的同行评审，成为首篇由AI撰写的科研论文。

PaperBench基准测试用于评估AI智能体自主复现前沿人工智能研究的能力。

Claude 3.5 Sonnet在PaperBench基准测试中获得了21.0%的得分。

每篇论文的评分标准由OpenAI与原作者合作制定，确保评估质量。

研究表明，智能体在复现机器学习研究论文方面展现出不容忽视的能力。

智能体需要提交一个代码仓库，包含复现论文实验结果所需的全部代码，并且不能使用原作者的代码库。

🏷️