蚂蚁开源轻量级推理模型Ring-lite,多项Benchmark达到SOTA 首创 C3PO 强化学习训练方法 蚂蚁团队推出的轻量级推理模型Ring-lite,采用C3PO强化学习方法,在多个推理榜单上取得了SOTA效果,显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异,展示了MoE架构的潜力。 C3PO MoE架构 Ring-lite SOTA 开源 推理模型