土法炼钢兴趣小组的博客 ·

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

后训练是调整预训练模型以实现特定目标的方法，包括预训练、监督微调、奖励建模、策略优化和评测。风格对齐关注表达方式，能力激发关注任务成功率。RLHF通过人类偏好优化助手行为，DPO简化为离线分类损失，RLVR通过可验证奖励提升推理能力。

🎯

🔎

后训练是一个复杂的流程，包含预训练、监督微调、奖励建模、策略优化和评测五个阶段。每个阶段都有其特定的目标和风险，理解这些阶段的关系有助于更好地把握模型的调整过程。预训练提供基础能力，而后续的每个阶段则逐步引导模型向特定任务目标靠近。

在后训练中，风格对齐和能力激发是两个不同的目标。风格对齐关注模型的表达方式，如礼貌和简洁，而能力激发则关注模型完成复杂任务的能力。理解这两者的区别有助于在模型训练时选择合适的方法和评估标准。

文章强调奖励定义在后训练中的重要性。错误的奖励信号可能导致模型学习到不正确的行为。因此，在设计后训练流程时，确保奖励信号的准确性和有效性是至关重要的，这将直接影响模型的表现和可靠性。

❓

后训练的主要目标是调整预训练模型以实现特定使用目标，包括遵循指令、拒绝危险请求和提供有用答案等。

后训练的五个阶段是预训练、监督微调、奖励建模、策略优化和评测。

风格对齐关注模型的表达方式，而能力激发关注模型完成任务的成功率。

RLHF通过人类偏好优化助手行为，而DPO将偏好优化简化为离线分类损失，不需要显式的奖励模型。

评测的目的是检查模型的能力变化和失效模式，确保模型在多个方面的表现符合预期。

后训练的主要风险包括数据污染、目标错配、过拟合格式和奖励黑客等。

🏷️