WorkArena: Web 代理在解决常见知识工作任务方面有多大能力?
原文中文,约400字,阅读约需1分钟。发表于: 。使用基于大型语言模型的代理程序研究通过 web 浏览器与软件的交互。通过提出基于 ServiceNow 平台的 29 个任务的远程托管基准 WorkArena,以及设计和评估此类代理程序的环境 BrowserGym,我们对其性能进行了实证评估,发现目前代理程序在工作区域上有一些潜力,但在实现完全的任务自动化方面还存在相当大的差距。尤其值得注意的是,我们的分析揭示了开源和闭源...
通过研究基于大型语言模型的代理程序,发现代理程序在工作区域上有潜力,但在任务自动化方面仍有差距。开源和闭源大型语言模型之间存在显著性能差异,需要进一步研究和发展。