小红花·文摘

本文介绍了PaperBench，这是一个用于评估人工智能代理在复制先进AI研究能力方面的基准测试。研究表明，目前的模型在复制能力上尚未超过顶尖人类研究者，这对推动AI在研究领域的应用具有重要意义。