本研究提出了StepSearch框架,旨在解决大型语言模型在复杂多跳问答中的知识获取问题。通过逐步近端策略优化,该框架显著优于传统方法,验证了细粒度监督的有效性。
完成下面两步后,将自动完成登录并继续当前操作。