本研究探讨了零强化学习在多个基础模型中的应用,克服了Qwen2.5模型的局限性。通过调整奖励格式和查询难度,显著提高了推理准确性和回复长度,并首次在小型模型中观察到“恍然大悟”现象。相关代码和工具已开源,支持进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。