研究团队提出了一种名为“步骤拒绝微调”(SRFT)的方法,以提高大型语言模型(LLM)在复杂任务中的学习效率。SRFT通过“评论者”模型分析失败轨迹,标记有害步骤,保留有用的正确步骤,从而显著提升模型性能,证明失败的尝试也能为学习提供重要信息。
完成下面两步后,将自动完成登录并继续当前操作。