💡
原文中文,约3300字,阅读约需8分钟。
📝
内容提要
PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。
🎯
关键要点
-
PRISM团队的研究发现,监督微调(SFT)并未为强化学习(RL)铺平道路,反而可能导致模型性能下降。
-
在多模态大模型的后训练中,SFT引入的分布偏差需要单独处理,导致模型在推理任务中表现不佳。
-
PRISM提出了SFT、分布对齐和RL的三阶段流程,强调中间的分布对齐阶段的重要性。
-
PRISM通过对抗博弈对齐分布,显著提升了模型在推理任务上的表现,修复了SFT的副作用。
-
研究表明,模型越强,PRISM的增益越大,且对齐带来的改进在多个基准测试中得到了验证。
❓
延伸问答
SFT对多模态大模型的影响是什么?
SFT可能导致模型性能下降,尤其是在推理任务中引入分布偏差。
PRISM提出了什么样的训练流程?
PRISM提出了SFT、分布对齐和RL的三阶段流程,强调分布对齐的重要性。
为什么SFT会导致模型性能下降?
因为SFT强迫模型模仿新分布,导致旧能力被冲掉,新能力未能真正学到。
PRISM如何修复SFT的副作用?
PRISM通过对抗博弈对齐分布,显著提升模型在推理任务上的表现,修复了SFT的副作用。
PRISM的对齐阶段有什么创新?
PRISM设计了一个混合专家判别器,分别处理感知漂移和推理漂移,提供解耦的纠正信号。
模型的强度与PRISM的增益有什么关系?
模型越强,PRISM的增益越大,8B模型的平均提升达到6.0,4B为4.4。
➡️