SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

🎯

关键要点

  • PRISM团队的研究发现,监督微调(SFT)并未为强化学习(RL)铺平道路,反而可能导致模型性能下降。

  • 在多模态大模型的后训练中,SFT引入的分布偏差需要单独处理,导致模型在推理任务中表现不佳。

  • PRISM提出了SFT、分布对齐和RL的三阶段流程,强调中间的分布对齐阶段的重要性。

  • PRISM通过对抗博弈对齐分布,显著提升了模型在推理任务上的表现,修复了SFT的副作用。

  • 研究表明,模型越强,PRISM的增益越大,且对齐带来的改进在多个基准测试中得到了验证。

延伸问答

SFT对多模态大模型的影响是什么?

SFT可能导致模型性能下降,尤其是在推理任务中引入分布偏差。

PRISM提出了什么样的训练流程?

PRISM提出了SFT、分布对齐和RL的三阶段流程,强调分布对齐的重要性。

为什么SFT会导致模型性能下降?

因为SFT强迫模型模仿新分布,导致旧能力被冲掉,新能力未能真正学到。

PRISM如何修复SFT的副作用?

PRISM通过对抗博弈对齐分布,显著提升模型在推理任务上的表现,修复了SFT的副作用。

PRISM的对齐阶段有什么创新?

PRISM设计了一个混合专家判别器,分别处理感知漂移和推理漂移,提供解耦的纠正信号。

模型的强度与PRISM的增益有什么关系?

模型越强,PRISM的增益越大,8B模型的平均提升达到6.0,4B为4.4。

➡️

继续阅读