小红花·文摘

ExGRPO框架通过科学管理经验提升大模型推理能力，避免经验浪费。研究表明，该方法在复杂任务中表现优异，强调中等难度问题和低熵解题路径的重要性，推动AI进入“经验即媒介”的新时代。