阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
阿里推出的WebDancer信息检索Agent具备自主上网搜索和复杂推理能力,超越GPT-4o。该模型经过四阶段训练,能够执行多步骤任务,并在GAIA和WebWalkerQA基准测试中表现优异,开源框架促进其他智能代理的发展。
🎯
关键要点
- 阿里推出WebDancer信息检索Agent,具备自主上网搜索和复杂推理能力。
- WebDancer经过四阶段训练,能够执行多步骤任务。
- 在GAIA和WebWalkerQA基准测试中,WebDancer表现优异,超越GPT-4o。
- WebDancer的训练包括浏览数据构建、轨迹采样、有监督微调和强化学习四个阶段。
- 浏览数据构建阶段创建复杂QA对,模拟人类行为进行信息收集。
- 轨迹采样阶段生成思维-动作-观察执行轨迹,采用双路径采样方法。
- 有监督微调阶段教会模型基础任务分解与工具调用能力。
- 强化学习阶段优化代理在真实网络环境中的决策能力和泛化能力。
- WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的平均准确率,优于基线模型。
- 在更具挑战性的数据集BrowseComp上,WebDancer表现出持续强劲的性能。
❓
延伸问答
WebDancer的信息检索能力有哪些特点?
WebDancer具备自主上网搜索和复杂推理能力,能够执行多步骤任务。
WebDancer是如何进行训练的?
WebDancer经过四个阶段的训练,包括浏览数据构建、轨迹采样、有监督微调和强化学习。
WebDancer在GAIA和WebWalkerQA基准测试中的表现如何?
WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的平均准确率,超越了基线模型。
WebDancer的强化学习阶段有什么作用?
强化学习阶段优化代理在真实网络环境中的决策能力和泛化能力。
WebDancer的开源框架有什么意义?
开源框架促进其他智能代理的发展,使其能够自主获取搜索和推理技能。
WebDancer如何模拟人类的信息检索行为?
WebDancer通过浏览数据构建阶段创建复杂QA对,模拟人类行为进行信息收集。
➡️