小红花·文摘

本研究探讨了零强化学习在多个基础模型中的应用，克服了Qwen2.5模型的局限性。通过调整奖励格式和查询难度，显著提高了推理准确性和回复长度，并首次在小型模型中观察到“恍然大悟”现象。相关代码和工具已开源，支持进一步研究。