本文介绍了PaperBench,这是一个用于评估人工智能代理在复制先进AI研究能力方面的基准测试。研究表明,目前的模型在复制能力上尚未超过顶尖人类研究者,这对推动AI在研究领域的应用具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。