小红花·文摘

本研究填补了AI代理在工作任务性能评估方面的空白，提出了可扩展基准TheAgentCompany。研究显示，简单任务的自主完成率为24%，而长时任务超出了当前系统的能力。