小红花·文摘

本研究提出了一种新方法逐步强化学习（SWiRL），旨在克服传统单步强化学习在复杂推理和工具使用中的局限性。SWiRL通过生成多步数据优化过程，实验结果表明其在多项任务中显著提高了准确率，并具备跨任务的泛化能力。