精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。

🎯

关键要点

  • 研究表明样本难度在多模态大模型训练中比训练范式更重要。
  • 中兴通讯团队首次通过GRPO-only方法在视觉推理和感知任务中超越传统的SFT+RL范式。
  • 提出了PISM和CMAB两种难度量化策略,显著提升了模型性能。
  • 难度感知采样的有效性得到了验证。
  • 多模态后训练环节中,样本难度比训练范式更关键,SFT并非RL的必要前置步骤。
  • 研究解决了多模态数据中缺乏可量化样本难度指标的问题。
  • 提出的PISM和CMAB策略从视觉敏感性与跨模态交互复杂度两个维度实现样本难度分层。
  • GRPO-only范式在中等+困难样本训练中表现优异,超越全量数据训练。
  • 实验结果显示SFT阶段未带来增益,可能限制模型真实推理能力。
  • 研究团队提出未来研究方向,包括动态难度调整和多策略融合。

延伸问答

GRPO-only方法的主要优势是什么?

GRPO-only方法在视觉推理和感知任务中超越了传统的SFT+RL范式,显著提升了模型性能,尤其在中等和困难样本训练中表现优异。

PISM和CMAB策略的作用是什么?

PISM和CMAB策略用于量化样本难度,分别从视觉敏感性和跨模态交互复杂度两个维度实现样本难度分层,提升模型训练效果。

研究中提到的样本难度对模型训练的重要性是什么?

研究表明,样本难度在多模态大模型训练中比训练范式更为重要,影响模型的推理能力和性能。

为什么SFT并非RL的必要前置步骤?

实验结果显示,SFT阶段未带来增益,可能限制模型的真实推理能力,因此SFT并不是RL训练的必要步骤。

未来的研究方向有哪些?

未来研究方向包括动态难度调整、多策略融合和在更大模型上验证方法有效性。

如何评估样本的难度?

样本难度通过PISM和CMAB策略进行评估,分别基于视觉信息损失和跨模态注意力平衡进行量化。

➡️

继续阅读