WebLINX:具有多轮对话的实际网站导航
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了会话式网络导航的问题,并提出了一个大规模基准WEBLINX,用于训练和评估代理。为了解决大量信息的问题,设计了一种受检索启发的模型来高效修剪HTML页面。实验发现,较小的微调解码器在模拟人类行为方面表现优于其他模型,但难以泛化到未见过的网站。
🎯
关键要点
- 提出了会话式网络导航的问题,数字代理通过多轮对话控制网络浏览器。
- 介绍了WEBLINX,一个包含100K个交互和2300个专家演示的大规模基准。
- 基准涵盖150多个真实网站的各种模式,用于训练和评估代理。
- 大型语言模型(LLM)无法实时处理整个网页,存在信息处理瓶颈。
- 设计了一种受检索启发的模型,通过排序相关元素高效修剪HTML页面。
- 使用所选元素、屏幕截图和操作历史评估模型在导航网页时模拟人类行为的能力。
- 实验涉及从纯文本到多模式LLM的各种模型。
- 较小的微调解码器在模拟人类行为方面优于其他模型,但难以泛化到未见过的网站。
- 研究强调了需要能够泛化到新颖设置的大型多模式模型。
➡️