MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。

🎯

关键要点

  • 微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练。

  • RPT通过推理任务重构预训练过程,提升模型的推理能力和下一个token预测准确度。

  • 传统预训练依赖自监督学习,而RPT通过引入强化学习激励有效的Next-Token推理任务。

  • 模型生成思维链推理序列,并通过前缀匹配奖励验证预测的正确性。

  • 实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力。

  • RPT在跨难度的训练计算方面表现出清晰的幂律缩放,预测准确性随着计算的增加而提高。

  • RPT-14B在SuperGPQA和MMLU-Pro基准测试上的零样本评估中表现优异。

  • 未来强化学习可能在LLM预训练过程中引发更大的变革。

延伸问答

什么是强化预训练(RPT)?

强化预训练(RPT)是微软亚洲研究院与清华、北大联合提出的一种新预训练范式,将强化学习深度融入大语言模型的预训练阶段。

RPT如何提升模型的推理能力?

RPT通过将预训练过程重构为推理任务,激励模型在预测下一个token前进行深层次推理,从而提升推理能力和预测准确度。

RPT-14B与传统模型相比有什么优势?

实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和更高的下一个token预测准确率。

RPT在训练计算方面表现如何?

RPT在跨难度的训练计算方面表现出清晰的幂律缩放,预测准确性随着计算的增加而提高。

RPT模型在基准测试中的表现如何?

RPT-14B在SuperGPQA和MMLU-Pro基准测试的零样本评估中表现优异,超越了其他模型。

未来强化学习在LLM预训练中可能带来什么变化?

未来强化学习可能在LLM预训练过程中引发更大的变革,推动模型的进一步发展和性能提升。

➡️

继续阅读