机器之心 ·

DeepResearcher：交大、SII发布首个真实环境强化学习「AI研究者」模型

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

上海交通大学与SII联合发布的DeepResearcher是首个在真实网络环境中通过强化学习训练的AI研究模型。该模型能够自主规划研究步骤、动态调整搜索策略并进行交叉验证，展现出人类研究者的复杂行为。DeepResearcher在多个问答数据集上表现优异，显著提升了研究效率，填补了开源Deep Research领域的空白。

🎯

关键要点

上海交通大学与SII联合发布DeepResearcher，这是首个在真实网络环境中通过强化学习训练的AI研究模型。
DeepResearcher能够自主规划研究步骤、动态调整搜索策略并进行交叉验证，展现出人类研究者的复杂行为。
现有的商业产品如OpenAI的Deep Research存在技术细节不公开和开源项目依赖人工设计工作流程的问题。
DeepResearcher通过强化学习扩展在真实网络环境中训练，形成了强大的研究能力。
在面对开放性问题时，DeepResearcher会主动开展更精确的搜索以验证信息准确性。
DeepResearcher在多个问答数据集上表现优异，显著提升了研究效率。
真实网络环境的训练使模型能够处理动态变化的信息，发展复杂的信息整合能力。
RL Scaling是确保模型泛化能力的关键机制，模型能够根据问题性质构建有效的搜索查询。
端到端的RL训练使DeepResearcher能够自主发现最优的研究路径，灵活调整搜索策略。
研究团队通过创新方法解决了真实环境中强化学习的技术挑战，确保系统稳定高效运行。
DeepResearcher的推理轨迹包括推理、网页搜索工具、网页浏览智能体和回答生成。
实验结果显示DeepResearcher在真实环境中训练的关键优势，尤其在复杂问题上表现出色。
DeepResearcher展现出多种非预期的认知能力，包括规划、交叉验证、反思和诚实。
DeepResearcher的成功标志着AI辅助研究的重大突破，为未来研究提供了宝贵见解。

🔎

延伸解读

真实环境训练的优势

DeepResearcher在真实网络环境中进行训练，展现出显著的优势。与传统的本地知识库训练相比，真实环境的动态性和复杂性使得模型能够更好地应对信息的多样性和不确定性。这种训练方式不仅提升了模型的泛化能力，还使其在处理开放性问题时能够进行更深入的交叉验证，确保答案的准确性。

AI研究者的自主性

DeepResearcher通过端到端的强化学习训练，展现出自主规划和调整研究策略的能力。这种自主性使得模型能够在面对复杂问题时，灵活应对并优化搜索路径，避免了传统方法中固定工作流程的局限。这一特性为未来AI在研究领域的应用提供了新的可能性。

技术挑战与解决方案

在真实环境中进行强化学习训练面临诸多技术挑战，如并发请求处理和网络爬取限制。研究团队通过设计分布式服务器架构和智能重试机制，有效应对了这些问题，确保了系统的稳定性和高效性。这些创新方法为其他AI系统在复杂环境中的应用提供了借鉴。

❓

延伸问答

DeepResearcher是什么？

DeepResearcher是首个在真实网络环境中通过强化学习训练的AI研究模型，由上海交通大学与SII联合发布。

DeepResearcher如何提升研究效率？

DeepResearcher能够自主规划研究步骤、动态调整搜索策略并进行交叉验证，从而显著提升研究效率。

DeepResearcher与现有商业产品有什么不同？

DeepResearcher是开源的，解决了现有商业产品技术细节不公开和依赖人工设计工作流程的问题。

DeepResearcher在真实环境中训练的优势是什么？

在真实环境中训练使DeepResearcher能够处理动态变化的信息，发展复杂的信息整合能力，提升泛化能力。

DeepResearcher如何进行信息的交叉验证？

DeepResearcher会从多个来源获取信息并进行交叉验证，基于信息的可靠性和一致性进行判断。

DeepResearcher的训练方法是什么？

DeepResearcher采用强化学习（RL）训练，使用群体相对策略优化（GRPO）算法进行优化。

🏷️