强化学习是否真的能提高大语言模型的推理能力？

本研究重新审视了强化学习与可验证奖励（RLVR）对大语言模型推理能力的影响，特别是在数学和编程任务中。结果表明，尽管RL训练的模型在小规模测试中优于基模型，但在较大规模测试中，基模型能够达到相当或更高的成功率，强调了RLvr在推理能力提升方面的局限性，并提出了对当前强化学习训练方法的重新思考。

大语言模型强化学习