使用单个训练示例的强化学习在大型语言模型中的推理能力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种通过单个训练示例进行验证奖励的强化学习方法(1-shot RLVR),显著提升了大型语言模型的数学推理能力,特别是将Qwen2.5-Math-1.5B在MATH500上的准确率从36.0%提高至73.6%。
🎯
关键要点
- 本研究提出了一种通过单个训练示例进行验证奖励的强化学习方法(1-shot RLVR)。
- 该方法显著提升了大型语言模型的数学推理能力。
- Qwen2.5-Math-1.5B在MATH500上的准确率从36.0%提高至73.6%。
- 研究为未来在RLVR数据效率方面的研究提供了新思路。
➡️