StepSearch: Enhancing the Search Capability of Large Language Models through Stepwise Proximal Policy Optimization 本研究解决了大型语言模型在复杂多跳问答中的知识获取难题,提出了StepSearch框架,通过逐步近端策略优化方法进行训练,提供更丰富的中间搜索奖励和过程监督。研究发现,该方法在标准的多跳问答基准测试中显著优于传统全局奖励基线,展示了细粒度逐步监督在优化深度搜索大型语言模型中的有效性。 本研究提出了StepSearch框架,旨在解决大型语言模型在复杂多跳问答中的知识获取问题。通过逐步近端策略优化,该框架显著优于传统方法,验证了细粒度监督的有效性。 StepSearch models 多跳问答 大型语言模型 知识获取 细粒度监督