DEV Community ·

RLVR并未扩展大型语言模型的推理能力，仅优化了采样行为：新研究

💡 原文英文，约2400词，阅读约需9分钟。

📝

内容提要

研究表明，强化学习与可验证奖励（RLVR）并未提升大型语言模型（LLMs）的推理能力，而是优化了其采样行为。尽管RLVR训练的模型在单次回答中表现更佳，但在多次尝试中，基础模型的成功率更高。这表明RLVR并未创造新的推理模式，而是提高了已有推理路径的效率。

🎯

关键要点

强化学习与可验证奖励（RLVR）未提升大型语言模型（LLMs）的推理能力，而是优化了其采样行为。
尽管RLVR训练的模型在单次回答中表现更佳，但在多次尝试中，基础模型的成功率更高。
RLVR并未创造新的推理模式，而是提高了已有推理路径的效率。
RLVR通过自动计算的奖励优化预训练模型，使用简单的验证方法。
研究使用pass@k指标评估推理能力，发现RLVR并未引发新的推理模式。
在数学推理中，RL训练模型在低k值时表现优异，但在高k值时基础模型表现更好。
代码生成任务中，基础模型在多次尝试中也超越了RLVR模型。
视觉推理实验结果与其他领域一致，基础模型在高k值时表现更佳。
RLVR模型的推理路径与基础模型重叠，未能扩展推理边界。
蒸馏技术能够真正扩展模型的推理能力，与RLVR不同。
当前的RL算法在采样效率上仍未达到最佳，未来需要探索新的方法。
RLVR的局限性在于其无法突破基础模型的推理边界，未来可能需要新的范式来提升推理能力。

❓

延伸问答

RLVR对大型语言模型的推理能力有什么影响？

RLVR并未提升大型语言模型的推理能力，而是优化了其采样行为。

在多次尝试中，RLVR模型的表现如何？

在多次尝试中，基础模型的成功率高于RLVR模型。

RLVR如何优化预训练模型？

RLVR通过自动计算的奖励和简单的验证方法来优化预训练模型。

为什么RLVR无法扩展推理边界？

RLVR无法突破基础模型的推理边界，因为其推理路径与基础模型重叠。

蒸馏技术与RLVR有什么不同？

蒸馏技术能够真正扩展模型的推理能力，而RLVR则无法做到这一点。

研究中使用了什么指标来评估推理能力？

研究使用了pass@k指标来评估推理能力。

🏷️

继续阅读

基于倾向评分的产品实验：Python中LLM特征的因果推断
文章讨论了在基于大型语言模型（LLM）的产品中，用户选择新功能（如AI助手）时的偏差问题。重度用户更倾向于尝试新功能，导致比较结果失真。为解决这一问题，文...
LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
生物研究正在变成软件工程：AI开始接管生物实验大脑！
生物研究正逐渐依赖AI进行数据分析，推动科学判断的自动化。AI能够高效筛选和分析生物数据，提升研究效率。未来，数据分析能力将成为生物研究的核心，快速将数据...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
用本地大模型驱动中文输入法，我做了一个实验性的项目 - 曦远Code
从一个问题开始你有没有用输入法时遇到这样的情况：打了一段话，下一个词的候选列表里，排第一的偏偏不是你想要的那个，但你知道那个词一定在后面几位，因为你刚才...
保护每一次 AI 调用的隐私安全 — 面向企业和个人的大模型安全接入网关
智链 AI 网关为企业和个人提供安全接入大模型的服务，具备数据脱敏、隐私保护和全链路审计功能，确保敏感信息不泄露。支持多种主流 AI 提供商，具备高可用性...