💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
Mistral AI发布了首个纯强化学习模型Magistral,提升数学与代码推理任务性能近50%。该模型采用新训练框架,避免教师模型偏差,展现多模态能力和跨领域泛化潜力,开源版本为Magistral Small(24B参数)。
🎯
关键要点
- Mistral AI发布了首个纯强化学习模型Magistral,提升数学与代码推理任务性能近50%。
- Magistral采用新训练框架,避免教师模型偏差,展现多模态能力和跨领域泛化潜力。
- Magistral Small为开源版本,包含24B参数。
- 核心创新在于纯RL训练框架,完全从零开始的强化学习路径。
- Magistral Medium在AIME-24数学竞赛基准上达到73.6% pass@1,较基础模型提升近50%。
- 算法引擎基于改进版Group Relative Policy Optimization (GRPO),包含五大关键创新。
- 奖励函数设计覆盖格式、正确性、长度惩罚和语言一致性四个维度。
- Mistral构建了分布式架构以支撑大规模RL训练,包含生成器、验证器和训练器三大组件。
- 纯文本训练意外提升多模态性能,证明了文本推理能力的泛化。
- 小模型通过纯RL训练可达到接近蒸馏模型的效果,推翻传统认知。
- 跨领域训练显示出数学与代码任务之间的相互提升,证明了通用推理能力的习得。
- 报告分享了无效方案的实验结果,强调了有效奖励机制的重要性。
- 开源模型Magistral Small的发布为轻量化模型提供了新路径,未来将探索多模态RL训练。
❓
延伸问答
Magistral模型的主要创新是什么?
Magistral模型的主要创新是采用纯强化学习训练框架,完全从零开始,避免了教师模型的偏差。
Magistral Small的参数量是多少?
Magistral Small的参数量为24B。
Magistral在数学与代码推理任务上的性能提升有多大?
Magistral在数学与代码推理任务上的性能提升近50%。
Magistral的奖励函数设计包含哪些维度?
Magistral的奖励函数设计覆盖格式、正确性、长度惩罚和语言一致性四个维度。
Magistral模型如何支持大规模强化学习训练?
Magistral模型通过构建分布式架构,包含生成器、验证器和训练器三大组件,来支持大规模强化学习训练。
Magistral模型的开源版本对行业有什么影响?
Magistral模型的开源版本为轻量化模型提供了新路径,证明了纯强化学习训练大模型的可行性。
➡️