量子位 ·

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

L-Zero通过可验证奖励的强化学习（RLVR）实现了模型的自主进化，增强了探索、验证和记忆能力。研究团队构建了端到端的智能体训练系统L0，并提出了结构化智能体框架NB-Agent，显著提升了模型在多项基准测试中的表现，展示了向更高级通用智能发展的潜力。

🎯

❓

L-Zero通过可验证奖励的强化学习（RLVR）实现模型的自主进化，增强了探索、验证和记忆能力。

NB-Agent框架在经典的'代码即行动'架构基础上扩展，赋予智能体类人类的记忆存储和自我反思能力。

L0系统采用端到端强化学习，重新定义动作粒度，并提出Agentic Policy Gradient算法，构建多维度自动奖励函数。

L-Zero在多个基准测试中显著提升了模型性能，例如在HotpotQA上得分从22%提升至41%。

L-Zero通过将模型的上下文窗口与Python运行时的变量双向绑定，赋予智能体主动管理自身记忆的能力。

L-Zero的模型通过学习搜索、规划和记忆行为，比传统规则式Agent更稳定、更泛化、也更强大。

🏷️

奥迪 R8 继任者发布！大 V8+千匹马力，走的却是复古风
奥迪重新走向「运动」#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
阿里开源Open Code Review：一款AI代码评审命令行工具
代码审查还在靠人工一行一行看？阿里把这个内部AI工具开源了 Open Code Review（简称 OCR）是阿里巴巴于 2026 年开源的 AI 代码...
本周赛博领鸡蛋：《征服之歌》（5.30~6.5）
本周 Epic Games 送出 2 款桌面游戏、1 款手机游戏，分别是《征服之歌》《Rogue Waters / 恶棍水域》和手机游戏《Wytchwoo...
论独立游戏的起步立项方法论
独立游戏的成功依赖于立项阶段的清晰规划。开发者需关注可发行最小规格、财务回报率和产品定位，明确目标、合理分配资源，避免过度追求完美，以确保项目按时完成。市...
保时捷Cayenne Coupe Turbo甚至会让911车主感到紧张
保时捷新款Cayenne Coupe Turbo更紧凑且更强大，拥有1139马力和1106磅-英尺的扭矩，成为史上最强保时捷。其电动版本加速迅猛，0-60...