StepSearch: Enhancing the Search Capability of Large Language Models through Stepwise Proximal Policy Optimization

本研究解决了大型语言模型在复杂多跳问答中的知识获取难题，提出了StepSearch框架，通过逐步近端策略优化方法进行训练，提供更丰富的中间搜索奖励和过程监督。研究发现，该方法在标准的多跳问答基准测试中显著优于传统全局奖励基线，展示了细粒度逐步监督在优化深度搜索大型语言模型中的有效性。

本研究提出了StepSearch框架，旨在解决大型语言模型在复杂多跳问答中的知识获取问题。通过逐步近端策略优化，该框架显著优于传统方法，验证了细粒度监督的有效性。

StepSearch models 多跳问答大型语言模型知识获取细粒度监督