本研究填补了AI代理在工作任务性能评估方面的空白,提出了可扩展基准TheAgentCompany。研究显示,简单任务的自主完成率为24%,而长时任务超出了当前系统的能力。
完成下面两步后,将自动完成登录并继续当前操作。