RLVR并未扩展大型语言模型的推理能力,仅优化了采样行为:新研究

RLVR并未扩展大型语言模型的推理能力,仅优化了采样行为:新研究

💡 原文英文,约2400词,阅读约需9分钟。
📝

内容提要

研究表明,强化学习与可验证奖励(RLVR)并未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。这表明RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。

🎯

关键要点

  • 强化学习与可验证奖励(RLVR)未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。
  • 尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。
  • RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。
  • RLVR通过自动计算的奖励优化预训练模型,使用简单的验证方法。
  • 研究使用pass@k指标评估推理能力,发现RLVR并未引发新的推理模式。
  • 在数学推理中,RL训练模型在低k值时表现优异,但在高k值时基础模型表现更好。
  • 代码生成任务中,基础模型在多次尝试中也超越了RLVR模型。
  • 视觉推理实验结果与其他领域一致,基础模型在高k值时表现更佳。
  • RLVR模型的推理路径与基础模型重叠,未能扩展推理边界。
  • 蒸馏技术能够真正扩展模型的推理能力,与RLVR不同。
  • 当前的RL算法在采样效率上仍未达到最佳,未来需要探索新的方法。
  • RLVR的局限性在于其无法突破基础模型的推理边界,未来可能需要新的范式来提升推理能力。

延伸问答

RLVR对大型语言模型的推理能力有什么影响?

RLVR并未提升大型语言模型的推理能力,而是优化了其采样行为。

在多次尝试中,RLVR模型的表现如何?

在多次尝试中,基础模型的成功率高于RLVR模型。

RLVR如何优化预训练模型?

RLVR通过自动计算的奖励和简单的验证方法来优化预训练模型。

为什么RLVR无法扩展推理边界?

RLVR无法突破基础模型的推理边界,因为其推理路径与基础模型重叠。

蒸馏技术与RLVR有什么不同?

蒸馏技术能够真正扩展模型的推理能力,而RLVR则无法做到这一点。

研究中使用了什么指标来评估推理能力?

研究使用了pass@k指标来评估推理能力。

➡️

继续阅读