小红花·文摘

该研究介绍了一种新方法来评估代理程序生成可执行计算机任务的能力，并展示了当前最强的基线语言模型代理在该基准测试中表现最好。然而，与人类能力相比，它仅达到15％，突显了传统网络代理在生成可完成任务的可执行脚本方面的挑战。该基准测试为衡量和评估语言模型代理在自动化计算机任务方面的进展提供了平台，并激励未来研究努力构建大型语言模型和计算机屏幕的视觉基础的多模态模型。