The JetBrains Blog ·

步骤拒绝微调：从嘈杂的智能体轨迹中提取更多信号

💡 原文英文，约2600词，阅读约需10分钟。

📝

内容提要

研究团队提出了一种名为“步骤拒绝微调”（SRFT）的方法，以提高大型语言模型（LLM）在复杂任务中的学习效率。SRFT通过“评论者”模型分析失败轨迹，标记有害步骤，保留有用的正确步骤，从而显著提升模型性能，证明失败的尝试也能为学习提供重要信息。

🎯

🔎

研究表明，传统的训练方法往往忽视了失败轨迹中的有用信息。即使在完全失败的尝试中，最多只有24%的步骤被标记为错误，其余步骤仍可能包含有价值的学习信号。这提示我们在训练模型时，应重视失败过程中的正确行为，避免简单地丢弃所有失败的尝试。

步骤拒绝微调（SRFT）通过使用评论者模型分析失败轨迹，能够有效识别并保留有用步骤。这种方法不仅提高了模型的学习效率，还避免了模型学习到错误的行为。实验结果显示，SRFT在使用失败轨迹时，模型性能显著提升，甚至超过了传统的成功轨迹训练方法。

在SRFT中，评论者模型的严格性至关重要。过于宽松的评论者可能会留下有害步骤，影响模型质量；而过于严格则可能丢失有用信息。因此，如何平衡评论者的判断标准，是实现最佳训练效果的关键。

❓

步骤拒绝微调（SRFT）是一种提高大型语言模型在复杂任务中学习效率的方法，通过分析失败轨迹来标记有害步骤并保留有用步骤。

SRFT通过使用评论者模型分析失败轨迹，识别并保留有用步骤，从而避免模型学习错误行为，显著提升性能。

传统训练方法会丢弃所有失败的尝试，导致大量潜在有价值的数据被浪费，因为许多步骤可能是正确的。

研究发现，即使在完全失败的轨迹中，最多只有24%的步骤被归类为错误，其余步骤通常是有用的探索或操作。

SRFT利用评论者模型分析失败轨迹，保留有用步骤，而RFT只使用成功轨迹进行训练，丢弃所有失败的尝试。

实验表明，使用SRFT的方法可以显著提高模型性能，甚至在仅使用失败轨迹的情况下也能获得良好的效果。

🏷️