💡
原文英文,约2400词,阅读约需9分钟。
📝
内容提要
研究表明,强化学习与可验证奖励(RLVR)并未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。这表明RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。
🎯
关键要点
- 强化学习与可验证奖励(RLVR)未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。
- 尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。
- RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。
- RLVR通过自动计算的奖励优化预训练模型,使用简单的验证方法。
- 研究使用pass@k指标评估推理能力,发现RLVR并未引发新的推理模式。
- 在数学推理中,RL训练模型在低k值时表现优异,但在高k值时基础模型表现更好。
- 代码生成任务中,基础模型在多次尝试中也超越了RLVR模型。
- 视觉推理实验结果与其他领域一致,基础模型在高k值时表现更佳。
- RLVR模型的推理路径与基础模型重叠,未能扩展推理边界。
- 蒸馏技术能够真正扩展模型的推理能力,与RLVR不同。
- 当前的RL算法在采样效率上仍未达到最佳,未来需要探索新的方法。
- RLVR的局限性在于其无法突破基础模型的推理边界,未来可能需要新的范式来提升推理能力。
❓
延伸问答
RLVR对大型语言模型的推理能力有什么影响?
RLVR并未提升大型语言模型的推理能力,而是优化了其采样行为。
在多次尝试中,RLVR模型的表现如何?
在多次尝试中,基础模型的成功率高于RLVR模型。
RLVR如何优化预训练模型?
RLVR通过自动计算的奖励和简单的验证方法来优化预训练模型。
为什么RLVR无法扩展推理边界?
RLVR无法突破基础模型的推理边界,因为其推理路径与基础模型重叠。
蒸馏技术与RLVR有什么不同?
蒸馏技术能够真正扩展模型的推理能力,而RLVR则无法做到这一点。
研究中使用了什么指标来评估推理能力?
研究使用了pass@k指标来评估推理能力。
➡️