阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
阿里推出的WebDancer信息检索Agent具备自主上网搜索和复杂推理能力,超越GPT-4o。该模型经过四阶段训练,能够执行多步骤任务,并在GAIA和WebWalkerQA基准测试中表现优异,开源框架促进其他智能代理的发展。
🎯
关键要点
- 阿里推出WebDancer信息检索Agent,具备自主上网搜索和复杂推理能力。
- WebDancer经过四阶段训练,能够执行多步骤任务。
- 在GAIA和WebWalkerQA基准测试中,WebDancer表现优异,超越GPT-4o。
- WebDancer的训练包括浏览数据构建、轨迹采样、有监督微调和强化学习四个阶段。
- 浏览数据构建阶段创建复杂QA对,模拟人类行为进行信息收集。
- 轨迹采样阶段生成思维-动作-观察执行轨迹,采用双路径采样方法。
- 有监督微调阶段教会模型基础任务分解与工具调用能力。
- 强化学习阶段优化代理在真实网络环境中的决策能力和泛化能力。
- WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的平均准确率,优于基线模型。
- 在更具挑战性的数据集BrowseComp上,WebDancer表现出持续强劲的性能。
➡️