本研究提出了S-GRPO和T-SPMO两种方法,提升了Qwen2-1.5B模型在SVAMP基准测试中的准确性,验证了在资源有限情况下强化学习调优的潜力。
本研究通过自动筛选机制提升轻量级大型语言模型在数学推理任务中的表现,在SVAMP数据集上提升15.8%,在GSM8K数据集上提升21.5%。
完成下面两步后,将自动完成登录并继续当前操作。