WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]
原文中文,约18800字,阅读约需45分钟。发表于: 。随着大语言模型 (LLMs) 的突飞猛进,一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式,并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估,这大大限制了它们在实际应用中的有效性。为了解决这一问题,我们推出了 WebVoyager:一个创新的、由大型多模态模型 (LMM)...
WebVoyager通过与不同网站的交互完成任务,但在Google Flights和Allrecipes网站上存在错误。WebVoyager在处理复杂任务和多模态能力方面表现出色,但在处理文本密集型网站时仍有改进空间。