MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
内容提要
微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。
关键要点
-
微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练。
-
RPT通过推理任务重构预训练过程,提升模型的推理能力和下一个token预测准确度。
-
传统预训练依赖自监督学习,而RPT通过引入强化学习激励有效的Next-Token推理任务。
-
模型生成思维链推理序列,并通过前缀匹配奖励验证预测的正确性。
-
实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力。
-
RPT在跨难度的训练计算方面表现出清晰的幂律缩放,预测准确性随着计算的增加而提高。
-
RPT-14B在SuperGPQA和MMLU-Pro基准测试上的零样本评估中表现优异。
-
未来强化学习可能在LLM预训练过程中引发更大的变革。
延伸问答
什么是强化预训练(RPT)?
强化预训练(RPT)是微软亚洲研究院与清华、北大联合提出的一种新预训练范式,将强化学习深度融入大语言模型的预训练阶段。
RPT如何提升模型的推理能力?
RPT通过将预训练过程重构为推理任务,激励模型在预测下一个token前进行深层次推理,从而提升推理能力和预测准确度。
RPT-14B与传统模型相比有什么优势?
实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和更高的下一个token预测准确率。
RPT在训练计算方面表现如何?
RPT在跨难度的训练计算方面表现出清晰的幂律缩放,预测准确性随着计算的增加而提高。
RPT模型在基准测试中的表现如何?
RPT-14B在SuperGPQA和MMLU-Pro基准测试的零样本评估中表现优异,超越了其他模型。
未来强化学习在LLM预训练中可能带来什么变化?
未来强化学习可能在LLM预训练过程中引发更大的变革,推动模型的进一步发展和性能提升。