SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

🎯

关键要点

  • PRISM团队的研究发现,监督微调(SFT)并未为强化学习(RL)铺平道路,反而可能导致模型性能下降。

  • 在多模态大模型的后训练中,SFT引入的分布偏差需要单独处理,导致模型在推理任务中表现不佳。

  • PRISM提出了SFT、分布对齐和RL的三阶段流程,强调中间的分布对齐阶段的重要性。

  • PRISM通过对抗博弈对齐分布,显著提升了模型在推理任务上的表现,修复了SFT的副作用。

  • 研究表明,模型越强,PRISM的增益越大,且对齐带来的改进在多个基准测试中得到了验证。

🔎

延伸解读

SFT与RL的关系

PRISM团队的研究揭示,监督微调(SFT)并未有效促进强化学习(RL),反而可能导致模型性能下降。这一发现提醒研究者在多模态大模型的训练中,需谨慎对待SFT与RL之间的关系,避免简单的两步训练模式。

分布对齐的重要性

PRISM提出的分布对齐阶段在多模态模型训练中至关重要。通过对抗博弈来对齐分布,可以有效修复SFT带来的偏差,提升模型在推理任务上的表现。这一创新为后续的RL阶段奠定了更稳固的基础。

模型强度与PRISM的增益

研究表明,模型越强,PRISM的增益越明显。特别是在8B模型上,PRISM的改进效果更为显著。这提示开发者在选择模型时,需考虑其基础能力,以便更好地利用PRISM进行后续训练。

延伸问答

SFT对多模态大模型的影响是什么?

SFT可能导致模型性能下降,尤其是在推理任务中引入分布偏差。

PRISM提出了什么样的训练流程?

PRISM提出了SFT、分布对齐和RL的三阶段流程,强调分布对齐的重要性。

为什么SFT会导致模型性能下降?

因为SFT强迫模型模仿新分布,导致旧能力被冲掉,新能力未能真正学到。

PRISM如何修复SFT的副作用?

PRISM通过对抗博弈对齐分布,显著提升模型在推理任务上的表现,修复了SFT的副作用。

PRISM的对齐阶段有什么创新?

PRISM设计了一个混合专家判别器,分别处理感知漂移和推理漂移,提供解耦的纠正信号。

模型的强度与PRISM的增益有什么关系?

模型越强,PRISM的增益越大,8B模型的平均提升达到6.0,4B为4.4。

🏷️

标签

➡️

继续阅读