小红花·文摘

本研究探讨了强化学习在复杂推理搜索代理训练中的最佳设计，发现格式化奖励显著提升性能，而中间检索奖励影响有限。LLM的规模和初始化方式对结果有重要影响，搜索引擎的选择对训练动态和推理稳健性至关重要。这些发现为LLM搜索代理的应用提供了指导。