本研究提出RLVR-World框架,解决传统世界模型训练目标与任务特定目标不一致的问题,通过可验证奖励的强化学习优化模型性能,显著提升语言和视频任务的表现。
研究表明,强化学习与可验证奖励(RLVR)并未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。这表明RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。
完成下面两步后,将自动完成登录并继续当前操作。