量子位 ·

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

微软亚洲研究院与清华、北大联合提出强化预训练（RPT），将强化学习深度融入大语言模型（LLM）预训练，提升模型的推理能力和下一个token预测准确度。实验结果显示，RPT-14B在多种任务上优于传统模型，展现出更强的推理能力和潜力。

🎯

关键要点

微软亚洲研究院与清华、北大联合提出强化预训练（RPT），将强化学习深度融入大语言模型（LLM）预训练。
RPT通过推理任务重构预训练过程，提升模型的推理能力和下一个token预测准确度。
传统预训练依赖自监督学习，而RPT通过引入强化学习激励有效的Next-Token推理任务。
模型生成思维链推理序列，并通过前缀匹配奖励验证预测的正确性。
实验结果显示，RPT-14B在多种任务上优于传统模型，展现出更强的推理能力。
RPT在跨难度的训练计算方面表现出清晰的幂律缩放，预测准确性随着计算的增加而提高。
RPT-14B在SuperGPQA和MMLU-Pro基准测试上的零样本评估中表现优异。
未来强化学习可能在LLM预训练过程中引发更大的变革。

🏷️

继续阅读

一分钟读论文：《文言文100%破解大模型，ICLR2026曝重大安全漏洞》
一项研究表明，古典文言文能够成功“越狱”现代大语言模型，攻击成功率达到100%。研究团队开发的CC-BOS框架利用古代智慧和生物启发算法，揭示了古典语言在...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
免费无限量的 GLM-5、Qwen3.5-398B 模型，AtomGit 限时免费
AtomGit推出限时活动，用户可免费使用GLM-5和Qwen3.5-398B模型。但OpenClaw的上下文限制为16K，可能存在设置错误。注册后可调用...
技术获 NVIDIA、Pi 双重认可！原力灵机 DM0 模型重塑具身智能新范式
原力灵机 DM0 模型通过 MemoryVLA 和 Real-time VLA 技术，获得 NVIDIA 和 Pi 的认可，显著提升了机器人的智能和反应速...
从原始数值识别嵌入模型
嵌入向量中的数字模式显著影响生成模型和推理指令。我们训练了一个小型变换器分类器，准确率达到87%。可以实时演示，粘贴任意嵌入向量以查看分类结果。

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

内容提要

关键要点

标签

继续阅读