小红花·文摘

本研究提出LUFFY框架，解决了零强化学习中的“在政策”限制，通过结合离政策示范与在政策训练，实现模仿与探索的动态平衡。LUFFY在六个数学基准测试中平均提升超过7.0，证明了其有效性，为训练通用推理能力模型开辟了新路径。

BriefGPT - AI 论文速递 ·

本研究探讨了零强化学习在多个基础模型中的应用，克服了Qwen2.5模型的局限性。通过调整奖励格式和查询难度，显著提高了推理准确性和回复长度，并首次在小型模型中观察到“恍然大悟”现象。相关代码和工具已开源，支持进一步研究。

BriefGPT - AI 论文速递 ·