量子位 ·

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

蚂蚁团队推出的轻量级推理模型Ring-lite，采用C3PO强化学习方法，在多个推理榜单上取得了SOTA效果，显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异，展示了MoE架构的潜力。

🎯

🔎

C3PO强化学习训练方法的提出，解决了传统RL训练中因回复长度波动导致的优化不稳定问题。这一创新不仅提升了训练的稳定性，还为后续的模型训练提供了新的思路，可能会影响未来AI模型的设计和训练策略。

Ring-lite采用分阶段训练策略，有效缓解了跨领域任务的冲突。这种方法在数学、编程和科学推理任务中实现了协同增益，展示了多领域联合训练的潜力，值得其他模型借鉴。

Ring-lite的成功离不开高质量的训练数据集。通过整合开源数据和自主采集，团队确保了数据的专业性与挑战性。这一策略不仅提升了模型的训练效率，也为复杂推理任务的效果奠定了基础。

❓

Ring-lite模型的主要创新点包括首创的C3PO强化学习训练方法、Long-CoT SFT与RL的训练比重优化，以及分阶段训练方案以缓解跨领域任务冲突。

Ring-lite在数学、编程和科学推理任务中表现优异，AIME24和AIME25得分超过对比模型，LiveCodeBench和CodeForces得分领先。

C3PO方法解决了RL训练中回复长度波动导致的优化不稳定问题，通过固定每个step传给优化器的总训练token数来稳定训练。

Ring-lite模型总参数为16.8B，激活参数仅为2.75B，显示出其轻量级的特性。

Ring-lite采用分阶段训练方案，先训练数学任务，再进行代码和科学任务的混合训练，以缓解领域冲突。

未来计划包括动态调整token预算以提升训练效率和稳定性，以及端到端协同优化以解决推理阶段的效率瓶颈。

🏷️