刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3

💡 原文中文,约6200字,阅读约需15分钟。
📝

内容提要

阿里巴巴通义实验室推出的WebSailor开源网络智能体,通过后训练方法显著提升复杂网页推理能力,成为首个挑战BrowseComp基准的开源模型,缩小了开源与闭源模型的能力差距。

🎯

关键要点

  • 阿里巴巴通义实验室推出WebSailor开源网络智能体,显著提升复杂网页推理能力。
  • WebSailor成为首个挑战BrowseComp基准的开源模型,缩小了开源与闭源模型的能力差距。
  • 复杂问题需要多步推理和信息收集,超出普通开源模型的能力范围。
  • WebSailor通过创新的后训练方法提升开源模型在复杂网页推理任务上的表现。
  • BrowseComp基准要求智能体在信息迷雾中主动搜集信息并进行多步推理。
  • WebSailor的核心方法包括生成高不确定性任务数据SailorFog-QA和使用强化学习算法DUPO。
  • SailorFog-QA数据集通过模糊化处理和随机游走构建,旨在锻炼模型的推理能力。
  • DUPO算法通过动态采样策略提高强化学习训练效率,确保模型快速迭代。
  • WebSailor在多个基准测试中表现优异,超越了DeepSeek R1、GPT-4.1和Grok-3等模型。
  • WebSailor的成功缩小了开源与闭源网页智能体之间的能力鸿沟,鼓舞了开源社区。
  • WebSailor提供了通用的工作流程,具有很强的普适性,可借鉴到其他领域的问题中。
  • 未来将继续探索如何提升开源模型的能力,挑战更复杂的推理任务。
➡️

继续阅读