阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

阿里推出的WebDancer信息检索Agent具备自主上网搜索和复杂推理能力,超越GPT-4o。该模型经过四阶段训练,能够执行多步骤任务,并在GAIA和WebWalkerQA基准测试中表现优异,开源框架促进其他智能代理的发展。

🎯

关键要点

  • 阿里推出WebDancer信息检索Agent,具备自主上网搜索和复杂推理能力。
  • WebDancer经过四阶段训练,能够执行多步骤任务。
  • 在GAIA和WebWalkerQA基准测试中,WebDancer表现优异,超越GPT-4o。
  • WebDancer的训练包括浏览数据构建、轨迹采样、有监督微调和强化学习四个阶段。
  • 浏览数据构建阶段创建复杂QA对,模拟人类行为进行信息收集。
  • 轨迹采样阶段生成思维-动作-观察执行轨迹,采用双路径采样方法。
  • 有监督微调阶段教会模型基础任务分解与工具调用能力。
  • 强化学习阶段优化代理在真实网络环境中的决策能力和泛化能力。
  • WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的平均准确率,优于基线模型。
  • 在更具挑战性的数据集BrowseComp上,WebDancer表现出持续强劲的性能。

延伸问答

WebDancer的信息检索能力有哪些特点?

WebDancer具备自主上网搜索和复杂推理能力,能够执行多步骤任务。

WebDancer是如何进行训练的?

WebDancer经过四个阶段的训练,包括浏览数据构建、轨迹采样、有监督微调和强化学习。

WebDancer在GAIA和WebWalkerQA基准测试中的表现如何?

WebDancer在GAIA和WebWalkerQA上分别达到46.6%和43.2%的平均准确率,超越了基线模型。

WebDancer的强化学习阶段有什么作用?

强化学习阶段优化代理在真实网络环境中的决策能力和泛化能力。

WebDancer的开源框架有什么意义?

开源框架促进其他智能代理的发展,使其能够自主获取搜索和推理技能。

WebDancer如何模拟人类的信息检索行为?

WebDancer通过浏览数据构建阶段创建复杂QA对,模拟人类行为进行信息收集。

➡️

继续阅读