阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

阿里推出的WebDancer信息检索Agent具备自主上网搜索和复杂推理能力,超越GPT-4o。该模型经过四阶段训练,能够执行多步骤任务,并在GAIA和WebWalkerQA基准测试中表现优异,开源框架促进其他智能代理的发展。

🎯

关键要点

  • 阿里推出WebDancer信息检索Agent,具备自主上网搜索和复杂推理能力。
  • WebDancer经过四阶段训练,能够执行多步骤任务。
  • 在GAIA和WebWalkerQA基准测试中,WebDancer表现优异,超越GPT-4o。
  • WebDancer的训练包括浏览数据构建、轨迹采样、有监督微调和强化学习四个阶段。
  • 浏览数据构建阶段创建复杂QA对,模拟人类行为进行信息收集。
  • 轨迹采样阶段生成思维-动作-观察执行轨迹,采用双路径采样方法。
  • 有监督微调阶段教会模型基础任务分解与工具调用能力。
  • 强化学习阶段优化代理在真实网络环境中的决策能力和泛化能力。
  • WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的平均准确率,优于基线模型。
  • 在更具挑战性的数据集BrowseComp上,WebDancer表现出持续强劲的性能。
➡️

继续阅读