WorkArena: Web 代理在解决常见知识工作任务方面有多大能力?

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过研究基于大型语言模型的代理程序,发现代理程序在工作区域上有潜力,但在任务自动化方面仍有差距。开源和闭源大型语言模型之间存在显著性能差异,需要进一步研究和发展。

🎯

关键要点

  • 研究基于大型语言模型的代理程序与软件的交互。
  • 提出了基于 ServiceNow 平台的 29 个任务的远程托管基准 WorkArena。
  • 设计和评估了代理程序的环境 BrowserGym。
  • 代理程序在工作区域上有潜力,但在任务自动化方面存在差距。
  • 开源和闭源大型语言模型之间存在显著性能差异。
  • 未来研究和发展方向需要关注性能差异问题。
➡️

继续阅读