L-Zero通过可验证奖励的强化学习(RLVR)实现了模型的自主进化,增强了探索、验证和记忆能力。研究团队构建了端到端的智能体训练系统L0,并提出了结构化智能体框架NB-Agent,显著提升了模型在多项基准测试中的表现,展示了向更高级通用智能发展的潜力。
完成下面两步后,将自动完成登录并继续当前操作。