MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。
🎯
关键要点
- 微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练。
- RPT通过推理任务重构预训练过程,提升模型的推理能力和下一个token预测准确度。
- 传统预训练依赖自监督学习,而RPT通过引入强化学习激励有效的Next-Token推理任务。
- 模型生成思维链推理序列,并通过前缀匹配奖励验证预测的正确性。
- 实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力。
- RPT在跨难度的训练计算方面表现出清晰的幂律缩放,预测准确性随着计算的增加而提高。
- RPT-14B在SuperGPQA和MMLU-Pro基准测试上的零样本评估中表现优异。
- 未来强化学习可能在LLM预训练过程中引发更大的变革。
➡️