WebAI 导航:使用大型语言模型和强化学习训练代理完成 Web 任务
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了会话式网络导航的问题和解决方案,包括大规模基准WEBLINX的设计、受检索启发的模型以及微调解码器的能力。作者强调了泛化到新颖设置的大型多模式模型的重要性。
🎯
关键要点
- 提出了会话式网络导航的问题,数字代理通过多轮对话控制网络浏览器。
- 介绍了 WEBLINX,一个包含 100K 个交互和 2300 个专家演示的大规模基准。
- 基准涵盖了 150 多个真实网站的各种模式,用于训练和评估代理。
- 大型语言模型(LLM)无法实时处理整个网页,存在信息处理瓶颈。
- 设计了一种受检索启发的模型,通过排序相关元素高效修剪 HTML 页面。
- 使用所选元素、屏幕截图和操作历史评估模型在导航网页时的表现。
- 实验涉及从纯文本到多模式 LLM 的各种模型。
- 较小的微调解码器在性能上超过了最好的零-shot LLMs,包括 GPT-4V。
- 所有微调模型在泛化到未见过的网站时表现不佳。
- 强调了大型多模式模型需要具备泛化到新颖设置的能力。
➡️