蚂蚁开源轻量级推理模型Ring-lite,多项Benchmark达到SOTA
💡
原文中文,约4400字,阅读约需11分钟。
📝
内容提要
蚂蚁团队推出的轻量级推理模型Ring-lite,采用C3PO强化学习方法,在多个推理榜单上取得了SOTA效果,显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异,展示了MoE架构的潜力。
🎯
关键要点
- 蚂蚁团队推出轻量级推理模型Ring-lite,采用C3PO强化学习方法。
- Ring-lite在多个推理榜单上实现SOTA效果,验证了MoE架构的潜力。
- 模型基于Ling-lite-1.5,参数总数为16.8B,激活参数仅2.75B。
- C3PO方法解决了RL训练中回复长度波动导致的优化不稳定问题。
- Ring-lite在数学、编程和科学推理任务中表现优异,超越对比模型。
- 团队采用分阶段训练方案,缓解跨领域任务冲突。
- 构建了高质量的长推理链数据和强化学习训练数据集。
- 未来计划动态调整token预算,提升训练效率和稳定性。
❓
延伸问答
Ring-lite模型的主要创新点是什么?
Ring-lite模型的主要创新点包括首创的C3PO强化学习训练方法、Long-CoT SFT与RL的训练比重优化,以及分阶段训练方案以缓解跨领域任务冲突。
Ring-lite在推理任务中的表现如何?
Ring-lite在数学、编程和科学推理任务中表现优异,AIME24和AIME25得分超过对比模型,LiveCodeBench和CodeForces得分领先。
C3PO强化学习方法解决了什么问题?
C3PO方法解决了RL训练中回复长度波动导致的优化不稳定问题,通过固定每个step传给优化器的总训练token数来稳定训练。
Ring-lite模型的参数配置是怎样的?
Ring-lite模型总参数为16.8B,激活参数仅为2.75B,显示出其轻量级的特性。
Ring-lite如何处理多领域任务的训练?
Ring-lite采用分阶段训练方案,先训练数学任务,再进行代码和科学任务的混合训练,以缓解领域冲突。
未来Ring-lite模型的改进计划是什么?
未来计划包括动态调整token预算以提升训练效率和稳定性,以及端到端协同优化以解决推理阶段的效率瓶颈。
➡️