小红花·文摘

本研究探讨了监督微调（SFT）与强化学习（RL）对模型泛化能力的影响，结果显示RL在未见变体上表现更佳，而SFT则容易记忆训练数据。尽管RL提升了泛化能力，SFT仍对有效的RL训练至关重要。