量子位 ·

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

微软亚洲研究院与清华、北大联合提出强化预训练（RPT），将强化学习深度融入大语言模型（LLM）预训练，提升模型的推理能力和下一个token预测准确度。实验结果显示，RPT-14B在多种任务上优于传统模型，展现出更强的推理能力和潜力。

🎯

关键要点

微软亚洲研究院与清华、北大联合提出强化预训练（RPT），将强化学习深度融入大语言模型（LLM）预训练。
RPT通过推理任务重构预训练过程，提升模型的推理能力和下一个token预测准确度。
传统预训练依赖自监督学习，而RPT通过引入强化学习激励有效的Next-Token推理任务。
模型生成思维链推理序列，并通过前缀匹配奖励验证预测的正确性。
实验结果显示，RPT-14B在多种任务上优于传统模型，展现出更强的推理能力。
RPT在跨难度的训练计算方面表现出清晰的幂律缩放，预测准确性随着计算的增加而提高。
RPT-14B在SuperGPQA和MMLU-Pro基准测试上的零样本评估中表现优异。
未来强化学习可能在LLM预训练过程中引发更大的变革。

❓

延伸问答

什么是强化预训练（RPT）？

强化预训练（RPT）是微软亚洲研究院与清华、北大联合提出的一种新预训练范式，将强化学习深度融入大语言模型的预训练阶段。

RPT如何提升模型的推理能力？

RPT通过将预训练过程重构为推理任务，激励模型在预测下一个token前进行深层次推理，从而提升推理能力和预测准确度。

RPT-14B与传统模型相比有什么优势？

实验结果显示，RPT-14B在多种任务上优于传统模型，展现出更强的推理能力和更高的下一个token预测准确率。

RPT在训练计算方面表现如何？

RPT在跨难度的训练计算方面表现出清晰的幂律缩放，预测准确性随着计算的增加而提高。

RPT模型在基准测试中的表现如何？

RPT-14B在SuperGPQA和MMLU-Pro基准测试的零样本评估中表现优异，超越了其他模型。

未来强化学习在LLM预训练中可能带来什么变化？

未来强化学习可能在LLM预训练过程中引发更大的变革，推动模型的进一步发展和性能提升。

🏷️

继续阅读

OpenAI表示其新模型GPT-5.5在编码方面更高效且表现更佳
OpenAI发布了新模型GPT-5.5，称其为“最智能、最直观”的版本，特别擅长编写和调试代码、在线研究及处理多工具任务。该模型具备更强的安全防护，能用更...
人工智能缩水：为何Anthropic的Claude Opus 4.7可能不如其替代模型
Anthropic发布的Claude Opus 4.7模型引发用户不满，因其在复杂推理和分析方面表现不佳，用户反映模型常常自我怀疑，导致效率低下。分析师认...
平民价格用旗舰模型的窗口期结束了
2024年底至2025年初，AI编程工具价格异常低廉，吸引了许多开发者。随着市场回归正常，平台逐步提高价格，导致用户账单激增。AI行业面临成本上升与盈利压...
刚刚，姚顺雨腾讯首秀来了！三个月重建混元新模型，实测到底什么水平
腾讯推出了新一代大模型Hy3 Preview，旨在解决复杂问题，具备295B参数，强调性能与成本的平衡。该模型在编程和智能体应用方面表现出色，关注用户需求...
核心训练和腹肌训练是一个东西吗？
核心训练与腹肌训练不同，核心训练强调稳定性和抗阻力能力，涉及腹部、背部和臀部等肌肉，而腹肌训练主要针对腹部肌肉。核心稳定性有助于抵抗重力，减少肌肉代偿，降...
Claude Mythos遭到未经授权的访问有人猜测模型端点并配合特殊权限实现访问
A社的Claude Mythos模型遭到未经授权访问，Discord群组成员通过猜测命名规则和凭证成功进入该模型。虽然声称仅用于测试，此事件暴露了A社外包...