强化学习是否真的能提高大语言模型的推理能力?

本研究重新审视了强化学习与可验证奖励(RLVR)对大语言模型推理能力的影响,特别是在数学和编程任务中。结果表明,尽管RL训练的模型在小规模测试中优于基模型,但在较大规模测试中,基模型能够达到相当或更高的成功率,强调了RLvr在推理能力提升方面的局限性,并提出了对当前强化学习训练方法的重新思考。

发表于:
阅读原文