内容提要
PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。
关键要点
-
PRISM团队的研究发现,监督微调(SFT)并未为强化学习(RL)铺平道路,反而可能导致模型性能下降。
-
在多模态大模型的后训练中,SFT引入的分布偏差需要单独处理,导致模型在推理任务中表现不佳。
-
PRISM提出了SFT、分布对齐和RL的三阶段流程,强调中间的分布对齐阶段的重要性。
-
PRISM通过对抗博弈对齐分布,显著提升了模型在推理任务上的表现,修复了SFT的副作用。
-
研究表明,模型越强,PRISM的增益越大,且对齐带来的改进在多个基准测试中得到了验证。
延伸解读
SFT与RL的关系
PRISM团队的研究揭示,监督微调(SFT)并未有效促进强化学习(RL),反而可能导致模型性能下降。这一发现提醒研究者在多模态大模型的训练中,需谨慎对待SFT与RL之间的关系,避免简单的两步训练模式。
分布对齐的重要性
PRISM提出的分布对齐阶段在多模态模型训练中至关重要。通过对抗博弈来对齐分布,可以有效修复SFT带来的偏差,提升模型在推理任务上的表现。这一创新为后续的RL阶段奠定了更稳固的基础。
模型强度与PRISM的增益
研究表明,模型越强,PRISM的增益越明显。特别是在8B模型上,PRISM的改进效果更为显著。这提示开发者在选择模型时,需考虑其基础能力,以便更好地利用PRISM进行后续训练。
延伸问答
SFT对多模态大模型的影响是什么?
SFT可能导致模型性能下降,尤其是在推理任务中引入分布偏差。
PRISM提出了什么样的训练流程?
PRISM提出了SFT、分布对齐和RL的三阶段流程,强调分布对齐的重要性。
为什么SFT会导致模型性能下降?
因为SFT强迫模型模仿新分布,导致旧能力被冲掉,新能力未能真正学到。
PRISM如何修复SFT的副作用?
PRISM通过对抗博弈对齐分布,显著提升模型在推理任务上的表现,修复了SFT的副作用。
PRISM的对齐阶段有什么创新?
PRISM设计了一个混合专家判别器,分别处理感知漂移和推理漂移,提供解耦的纠正信号。
模型的强度与PRISM的增益有什么关系?
模型越强,PRISM的增益越大,8B模型的平均提升达到6.0,4B为4.4。