量子位 ·

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

ExGRPO框架通过科学管理经验提升大模型推理能力，避免经验浪费。研究表明，该方法在复杂任务中表现优异，强调中等难度问题和低熵解题路径的重要性，推动AI进入“经验即媒介”的新时代。

🎯

❓

ExGRPO框架的主要目标是通过科学管理经验提升大模型的推理能力，避免经验浪费。

ExGRPO通过经验管理和混合策略优化，平衡探索新知和复习旧识，从而提高学习效率。

高质量的经验应具备中等难度和低熵解题路径，这样的经验更有助于模型的学习。

ExGRPO在复杂任务中表现优异，尤其在AIME数学竞赛题上效果显著。

ExGRPO通过建立经验回放池，动态划分和筛选经验，确保复习材料的高质量。

ExGRPO能够“救活”弱模型，提升其推理能力，避免训练崩溃。

🏷️

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
SuperX首个美国AI推理云中心在丹佛投入运营
(全球TMT 2026年06月05日讯)全栈式AI基础设施解决方案提供商SuperX AI Technolog […]
使用yii3实现一个微框架
本文介绍了如何使用 Yii3 框架构建微框架，包括创建项目目录、安装依赖、编写入口文件 index.php、配置事件监听器和路由。示例路由涵盖首页、健康检...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
Mavrix在劳德代尔堡设立美国新总部
(全球TMT 2026年06月05日讯)Mavrix宣布，在佛罗里达州劳德代尔堡设立美国总部。该公司2026年 […]
与TorchRec KeyedJaggedTensor的同步
Efficiently Using TorchRec KeyedJaggedTensor In GPU Systems