小红花·文摘

L-Zero通过可验证奖励的强化学习（RLVR）实现了模型的自主进化，增强了探索、验证和记忆能力。研究团队构建了端到端的智能体训练系统L0，并提出了结构化智能体框架NB-Agent，显著提升了模型在多项基准测试中的表现，展示了向更高级通用智能发展的潜力。