本研究探讨了监督微调(SFT)与强化学习(RL)对模型泛化能力的影响,结果显示RL在未见变体上表现更佳,而SFT则容易记忆训练数据。尽管RL提升了泛化能力,SFT仍对有效的RL训练至关重要。
完成下面两步后,将自动完成登录并继续当前操作。