本研究探讨了强化学习在复杂推理搜索代理训练中的最佳设计,发现格式化奖励显著提升性能,而中间检索奖励影响有限。LLM的规模和初始化方式对结果有重要影响,搜索引擎的选择对训练动态和推理稳健性至关重要。这些发现为LLM搜索代理的应用提供了指导。
完成下面两步后,将自动完成登录并继续当前操作。