蚂蚁团队推出的轻量级推理模型Ring-lite,采用C3PO强化学习方法,在多个推理榜单上取得了SOTA效果,显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异,展示了MoE架构的潜力。
完成下面两步后,将自动完成登录并继续当前操作。