TheAgentCompany:对大型语言模型代理在重大现实任务上的基准测试
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究填补了AI代理在工作任务性能评估方面的空白,提出了可扩展基准TheAgentCompany。研究显示,简单任务的自主完成率为24%,而长时任务超出了当前系统的能力。
🎯
关键要点
- 本研究填补了AI代理在工作任务性能评估方面的空白。
- 提出了可扩展基准TheAgentCompany,用于评估AI代理在模拟工作环境中的任务执行能力。
- 简单任务的自主完成率为24%。
- 长时任务超出了当前系统的能力范围。
➡️