土法炼钢兴趣小组的博客 ·

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

💡 原文中文，约7500字，阅读约需18分钟。

📝

内容提要

后训练是一个复杂的数据流水线，包含多个阶段，如SFT、奖励模型和策略优化。每个阶段旨在将预训练模型转变为更符合人类指令和偏好的模型。SFT主要调整回答格式，奖励模型提供训练信号，策略优化提升生成候选的能力。评测确保模型的安全性和准确性，整体流程强调数据回流和持续优化，以提升模型性能和可靠性。

🎯

🔎

后训练并非简单的微调，而是一个复杂的数据流水线，涵盖多个阶段。每个阶段都有其独特的目标和产物，强调了模型从预训练到发布的转变过程。理解这一系统性有助于更好地把握模型优化的全貌，避免将后训练视为单一的操作。

虽然SFT在调整模型回答格式和遵循指令方面发挥了重要作用，但其局限性也不容忽视。SFT无法直接表达相对偏好，且在面对未覆盖的采样轨迹时可能表现不佳。这提示我们在后训练过程中需要结合其他方法，以确保模型的多样性和适应性。

评测阶段在后训练中至关重要，它确保模型在优化过程中不会出现推理、安全或事实性退化。缺乏有效的评测，模型可能在局部目标上表现良好，但整体性能却可能下降。因此，建立全面的评测机制是提升模型可靠性的关键。

❓

后训练主要包括SFT、奖励模型、策略优化和评测四个阶段。

SFT主要调整模型的回答格式和指令遵循方式，使其更符合人类期望的行为分布。

奖励模型通过学习人类的相对偏好，提供训练信号来优化模型的输出。

策略优化提升模型在生成候选回答时的能力，使其能够比较多个候选并更新策略。

评测阶段确保模型的安全性和准确性，避免在优化过程中出现推理、安全或事实性退化。

SFT存在局限性，无法直接表达相对偏好，也不擅长利用可验证反馈。

🏷️