小红花·文摘

本研究探讨了AI代理在工作相关任务中的性能评估，提出了可扩展的基准TheAgentCompany。结果显示，简单任务的自主完成率为24%，而长时任务仍超出当前系统能力。