小红花·文摘

本研究提出了StepSearch框架，旨在解决大型语言模型在复杂多跳问答中的知识获取问题。通过逐步近端策略优化，该框架显著优于传统方法，验证了细粒度监督的有效性。