小红花·文摘

微软亚洲研究院与清华、北大联合提出强化预训练（RPT），将强化学习深度融入大语言模型（LLM）预训练，提升模型的推理能力和下一个token预测准确度。实验结果显示，RPT-14B在多种任务上优于传统模型，展现出更强的推理能力和潜力。