WebAI 导航:使用大型语言模型和强化学习训练代理完成 Web 任务

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了会话式网络导航的问题和解决方案,包括大规模基准WEBLINX的设计、受检索启发的模型以及微调解码器的能力。作者强调了泛化到新颖设置的大型多模式模型的重要性。

🎯

关键要点

  • 提出了会话式网络导航的问题,数字代理通过多轮对话控制网络浏览器。
  • 介绍了 WEBLINX,一个包含 100K 个交互和 2300 个专家演示的大规模基准。
  • 基准涵盖了 150 多个真实网站的各种模式,用于训练和评估代理。
  • 大型语言模型(LLM)无法实时处理整个网页,存在信息处理瓶颈。
  • 设计了一种受检索启发的模型,通过排序相关元素高效修剪 HTML 页面。
  • 使用所选元素、屏幕截图和操作历史评估模型在导航网页时的表现。
  • 实验涉及从纯文本到多模式 LLM 的各种模型。
  • 较小的微调解码器在性能上超过了最好的零-shot LLMs,包括 GPT-4V。
  • 所有微调模型在泛化到未见过的网站时表现不佳。
  • 强调了大型多模式模型需要具备泛化到新颖设置的能力。
➡️

继续阅读