微软亚洲研究院与清华、北大联合提出强化预训练(RPT),将强化学习深度融入大语言模型(LLM)预训练,提升模型的推理能力和下一个token预测准确度。实验结果显示,RPT-14B在多种任务上优于传统模型,展现出更强的推理能力和潜力。
完成下面两步后,将自动完成登录并继续当前操作。