量子位 ·

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

PRISM团队的研究表明，监督微调（SFT）并未促进强化学习（RL），反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程，强调在多模态模型中，SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布，PRISM显著提升了模型在推理任务上的表现，修复了SFT的副作用。

🎯

关键要点

PRISM团队的研究发现，监督微调（SFT）并未为强化学习（RL）铺平道路，反而可能导致模型性能下降。
在多模态大模型的后训练中，SFT引入的分布偏差需要单独处理，导致模型在推理任务中表现不佳。
PRISM提出了SFT、分布对齐和RL的三阶段流程，强调中间的分布对齐阶段的重要性。
PRISM通过对抗博弈对齐分布，显著提升了模型在推理任务上的表现，修复了SFT的副作用。
研究表明，模型越强，PRISM的增益越大，且对齐带来的改进在多个基准测试中得到了验证。

❓

延伸问答

SFT对多模态大模型的影响是什么？

SFT可能导致模型性能下降，尤其是在推理任务中引入分布偏差。

PRISM提出了什么样的训练流程？

PRISM提出了SFT、分布对齐和RL的三阶段流程，强调分布对齐的重要性。

为什么SFT会导致模型性能下降？

因为SFT强迫模型模仿新分布，导致旧能力被冲掉，新能力未能真正学到。

PRISM如何修复SFT的副作用？

PRISM通过对抗博弈对齐分布，显著提升模型在推理任务上的表现，修复了SFT的副作用。

PRISM的对齐阶段有什么创新？

PRISM设计了一个混合专家判别器，分别处理感知漂移和推理漂移，提供解耦的纠正信号。

模型的强度与PRISM的增益有什么关系？

模型越强，PRISM的增益越大，8B模型的平均提升达到6.0，4B为4.4。

🏷️

继续阅读

Typecho升级到1.3，使用Warmpaper主题
继周五迁移图床，周六又把博客翻新了，主要干了两件事：Typecho升级到1.3，同步把php环境升级到8.2移植Hexo的Warmpaper主题到Type...
从管人到管系统行为：AI时代技术管理者的全新认知框架
最近大量使用 AI 进行开发，我逐渐意识到一个趋势：随着 AI 编程的普及，被颠覆的不仅仅是一线工程师的工作方式，对 CTO、技术总监、技术 Leader...
6.4k Stars！用Claude Code写论文的全套流水线，有人打包开源了
ARS是一款开源项目，利用Claude Code支持学术研究，涵盖研究、写作、审稿和定稿四个阶段。该项目设计旨在防止AI出错，确保引用的真实性和研究的完整...
「进行中」XDSec SSO开发小记
本文记录了XDSec SSO开发过程中的经验，重点讨论了防止邮箱枚举和设计TOTP验证流程。通过设计接口避免泄露用户信息，并提出将JWT与TOTP结合的方...
衰老或非磨损而是"细胞失忆"——长寿科技从优化身体转向重写生命操作系统
现代长寿科技正从传统抗衰老方法转向表观遗传重置理论，认为衰老是细胞控制系统失效而非单纯磨损。科学家们探索恢复细胞年轻状态，认为衰老可能是信息丢失而非不可逆...
词元token中转站如何把GPT与Claude算力压缩到3%成本?
本文探讨了中转站如何通过拆解高价AI模型的访问权限，提供低成本算力服务。中转站利用闲置资源重构API调用方式，降低开发者成本，但也带来数据隐私和安全风险。...