蚂蚁开源轻量级推理模型Ring-lite,多项Benchmark达到SOTA

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

蚂蚁团队推出的轻量级推理模型Ring-lite,采用C3PO强化学习方法,在多个推理榜单上取得了SOTA效果,显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异,展示了MoE架构的潜力。

🎯

关键要点

  • 蚂蚁团队推出轻量级推理模型Ring-lite,采用C3PO强化学习方法。
  • Ring-lite在多个推理榜单上实现SOTA效果,验证了MoE架构的潜力。
  • 模型基于Ling-lite-1.5,参数总数为16.8B,激活参数仅2.75B。
  • C3PO方法解决了RL训练中回复长度波动导致的优化不稳定问题。
  • Ring-lite在数学、编程和科学推理任务中表现优异,超越对比模型。
  • 团队采用分阶段训练方案,缓解跨领域任务冲突。
  • 构建了高质量的长推理链数据和强化学习训练数据集。
  • 未来计划动态调整token预算,提升训练效率和稳定性。

延伸问答

Ring-lite模型的主要创新点是什么?

Ring-lite模型的主要创新点包括首创的C3PO强化学习训练方法、Long-CoT SFT与RL的训练比重优化,以及分阶段训练方案以缓解跨领域任务冲突。

Ring-lite在推理任务中的表现如何?

Ring-lite在数学、编程和科学推理任务中表现优异,AIME24和AIME25得分超过对比模型,LiveCodeBench和CodeForces得分领先。

C3PO强化学习方法解决了什么问题?

C3PO方法解决了RL训练中回复长度波动导致的优化不稳定问题,通过固定每个step传给优化器的总训练token数来稳定训练。

Ring-lite模型的参数配置是怎样的?

Ring-lite模型总参数为16.8B,激活参数仅为2.75B,显示出其轻量级的特性。

Ring-lite如何处理多领域任务的训练?

Ring-lite采用分阶段训练方案,先训练数学任务,再进行代码和科学任务的混合训练,以缓解领域冲突。

未来Ring-lite模型的改进计划是什么?

未来计划包括动态调整token预算以提升训练效率和稳定性,以及端到端协同优化以解决推理阶段的效率瓶颈。

➡️

继续阅读