WebLINX:具有多轮对话的实际网站导航

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了会话式网络导航的问题,并提出了一个大规模基准WEBLINX,用于训练和评估代理。为了解决大量信息的问题,设计了一种受检索启发的模型来高效修剪HTML页面。实验发现,较小的微调解码器在模拟人类行为方面表现优于其他模型,但难以泛化到未见过的网站。

🎯

关键要点

  • 提出了会话式网络导航的问题,数字代理通过多轮对话控制网络浏览器。
  • 介绍了WEBLINX,一个包含100K个交互和2300个专家演示的大规模基准。
  • 基准涵盖150多个真实网站的各种模式,用于训练和评估代理。
  • 大型语言模型(LLM)无法实时处理整个网页,存在信息处理瓶颈。
  • 设计了一种受检索启发的模型,通过排序相关元素高效修剪HTML页面。
  • 使用所选元素、屏幕截图和操作历史评估模型在导航网页时模拟人类行为的能力。
  • 实验涉及从纯文本到多模式LLM的各种模型。
  • 较小的微调解码器在模拟人类行为方面优于其他模型,但难以泛化到未见过的网站。
  • 研究强调了需要能够泛化到新颖设置的大型多模式模型。
➡️

继续阅读