土法炼钢兴趣小组的博客 ·

【强化学习与大模型后训练】07｜监督微调（SFT）：指令数据、模板与训练细节

💡 原文中文，约7500字，阅读约需18分钟。

📝

内容提要

这篇文章讨论了监督微调（SFT）在语言模型训练中的重要性，强调数据质量、模板设计和损失函数的影响。SFT通过指令与回答对训练模型，确保模型能够有效生成助手回答。此外，SFT是后续强化学习（RLHF）的基础，强调样本去重、数据来源和模板一致性的重要性，以避免模型学习错误的行为模式。

🎯

🔎

文章强调，监督微调（SFT）中数据质量比数量更为重要。高质量的示范数据能够显著提升模型的交互能力，而低质量的数据则可能导致模型学习到错误的行为模式。因此，在数据收集和处理阶段，确保数据的准确性和一致性是至关重要的。

聊天模板的设计直接影响模型的学习效果。不同的模板会导致模型接收到不同的上下文信息，从而影响其生成的回答。如果模板设计不当，可能会导致模型学习到不正确的行为。因此，在进行SFT时，需仔细设计和测试模板，以确保其有效性。

SFT不仅是模型训练的一个阶段，也是后续强化学习（RLHF）的基础。模型的初始质量将直接影响后续的学习效果。如果SFT阶段的模型表现不佳，后续的RLHF将需要更多的时间和资源来纠正这些问题。因此，确保SFT阶段的成功至关重要。

❓

SFT通过指令与回答对训练模型，确保模型能够有效生成助手回答，是后续强化学习的基础。

高质量的示范能显著影响模型的交互行为，而低质量数据可能导致模型学习错误的行为模式。

聊天模板决定模型看到的任务，错误的模板设计可能导致模型学习错误的行为。

SFT的目标函数只在助手回答部分计算next-token loss，其他部分不参与损失计算。

样本去重可以避免模型背诵高频模板，确保模型的泛化能力。

SFT模型通常作为PPO策略的初始化和KL参考模型的来源，初始化质量直接影响后续学习效果。

🏷️