本研究提出LUFFY框架,解决了零强化学习中的“在政策”限制,通过结合离政策示范与在政策训练,实现模仿与探索的动态平衡。LUFFY在六个数学基准测试中平均提升超过7.0,证明了其有效性,为训练通用推理能力模型开辟了新路径。
本研究探讨了零强化学习在多个基础模型中的应用,克服了Qwen2.5模型的局限性。通过调整奖励格式和查询难度,显著提高了推理准确性和回复长度,并首次在小型模型中观察到“恍然大悟”现象。相关代码和工具已开源,支持进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。