MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。

🎯

关键要点

  • 微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练。
  • RPT通过推理任务重构预训练过程,提升模型的推理能力和下一个token预测准确度。
  • 传统预训练依赖自监督学习,而RPT通过引入强化学习激励有效的Next-Token推理任务。
  • 模型生成思维链推理序列,并通过前缀匹配奖励验证预测的正确性。
  • 实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力。
  • RPT在跨难度的训练计算方面表现出清晰的幂律缩放,预测准确性随着计算的增加而提高。
  • RPT-14B在SuperGPQA和MMLU-Pro基准测试上的零样本评估中表现优异。
  • 未来强化学习可能在LLM预训练过程中引发更大的变革。
➡️

继续阅读