精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。
🎯
关键要点
- 研究表明样本难度在多模态大模型训练中比训练范式更重要。
- 中兴通讯团队首次通过GRPO-only方法在视觉推理和感知任务中超越传统的SFT+RL范式。
- 提出了PISM和CMAB两种难度量化策略,显著提升了模型性能。
- 难度感知采样的有效性得到了验证。
- 多模态后训练环节中,样本难度比训练范式更关键,SFT并非RL的必要前置步骤。
- 研究解决了多模态数据中缺乏可量化样本难度指标的问题。
- 提出的PISM和CMAB策略从视觉敏感性与跨模态交互复杂度两个维度实现样本难度分层。
- GRPO-only范式在中等+困难样本训练中表现优异,超越全量数据训练。
- 实验结果显示SFT阶段未带来增益,可能限制模型真实推理能力。
- 研究团队提出未来研究方向,包括动态难度调整和多策略融合。
❓
延伸问答
GRPO-only方法的主要优势是什么?
GRPO-only方法在视觉推理和感知任务中超越了传统的SFT+RL范式,显著提升了模型性能,尤其在中等和困难样本训练中表现优异。
PISM和CMAB策略的作用是什么?
PISM和CMAB策略用于量化样本难度,分别从视觉敏感性和跨模态交互复杂度两个维度实现样本难度分层,提升模型训练效果。
研究中提到的样本难度对模型训练的重要性是什么?
研究表明,样本难度在多模态大模型训练中比训练范式更为重要,影响模型的推理能力和性能。
为什么SFT并非RL的必要前置步骤?
实验结果显示,SFT阶段未带来增益,可能限制模型的真实推理能力,因此SFT并不是RL训练的必要步骤。
未来的研究方向有哪些?
未来研究方向包括动态难度调整、多策略融合和在更大模型上验证方法有效性。
如何评估样本的难度?
样本难度通过PISM和CMAB策略进行评估,分别基于视觉信息损失和跨模态注意力平衡进行量化。
➡️