本研究探讨了AI代理在工作相关任务中的性能评估,提出了可扩展的基准TheAgentCompany。结果显示,简单任务的自主完成率为24%,而长时任务仍超出当前系统能力。
完成下面两步后,将自动完成登录并继续当前操作。