【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测
内容提要
后训练是一个复杂的数据流水线,包含多个阶段,如SFT、奖励模型和策略优化。每个阶段旨在将预训练模型转变为更符合人类指令和偏好的模型。SFT主要调整回答格式,奖励模型提供训练信号,策略优化提升生成候选的能力。评测确保模型的安全性和准确性,整体流程强调数据回流和持续优化,以提升模型性能和可靠性。
关键要点
-
后训练是一个复杂的数据流水线,包含多个阶段,如SFT、奖励模型和策略优化。
-
SFT主要调整回答格式和指令遵循方式,将模型从通用分布转变为符合人类期望的行为分布。
-
奖励模型提供训练信号,通过学习人类的相对偏好来优化模型的输出。
-
策略优化提升模型在生成候选回答时的能力,使其能够在多个候选中比较优劣并更新策略。
-
评测阶段确保模型的安全性和准确性,避免在优化过程中出现推理、安全或事实性退化。
-
后训练强调数据回流和持续优化,以提升模型性能和可靠性。
-
SFT存在局限性,无法直接表达相对偏好,也不擅长利用可验证反馈。
-
在线RL、离线偏好优化和可验证奖励是三条主要的优化路线,各有优缺点。
-
真实配方结合了SFT、奖励模型和PPO,形成主流的RLHF范式。
-
系统核对清单确保每个阶段的数据、模板和评测一致性,避免潜在的失败和风险。
延伸解读
后训练的系统性
后训练并非简单的微调,而是一个复杂的数据流水线,涵盖多个阶段。每个阶段都有其独特的目标和产物,强调了模型从预训练到发布的转变过程。理解这一系统性有助于更好地把握模型优化的全貌,避免将后训练视为单一的操作。
SFT的局限性
虽然SFT在调整模型回答格式和遵循指令方面发挥了重要作用,但其局限性也不容忽视。SFT无法直接表达相对偏好,且在面对未覆盖的采样轨迹时可能表现不佳。这提示我们在后训练过程中需要结合其他方法,以确保模型的多样性和适应性。
评测的重要性
评测阶段在后训练中至关重要,它确保模型在优化过程中不会出现推理、安全或事实性退化。缺乏有效的评测,模型可能在局部目标上表现良好,但整体性能却可能下降。因此,建立全面的评测机制是提升模型可靠性的关键。
延伸问答
后训练的主要阶段有哪些?
后训练主要包括SFT、奖励模型、策略优化和评测四个阶段。
SFT在后训练中起什么作用?
SFT主要调整模型的回答格式和指令遵循方式,使其更符合人类期望的行为分布。
奖励模型如何优化模型输出?
奖励模型通过学习人类的相对偏好,提供训练信号来优化模型的输出。
策略优化在后训练中有什么重要性?
策略优化提升模型在生成候选回答时的能力,使其能够比较多个候选并更新策略。
后训练的评测阶段有什么关键作用?
评测阶段确保模型的安全性和准确性,避免在优化过程中出现推理、安全或事实性退化。
后训练中存在哪些局限性?
SFT存在局限性,无法直接表达相对偏好,也不擅长利用可验证反馈。