量子位 ·

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

研究表明，在多模态大模型训练中，样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法，在视觉推理和感知任务中超越传统的SFT+RL范式，提出了PISM和CMAB两种难度量化策略，显著提升了模型性能，验证了难度感知采样的有效性。

🎯

🔎

研究表明，在多模态大模型的训练中，样本的难度比训练范式更为关键。这一发现挑战了传统观念，强调了在选择训练样本时，难度感知采样的有效性。未来的研究可以进一步探索如何动态调整样本难度，以适应模型的学习进程。

中兴通讯团队的GRPO-only方法在视觉推理和感知任务中表现优异，超越了传统的SFT+RL范式。这一方法不仅简化了训练流程，还提高了模型的后训练效率，为多模态模型的通用训练提供了新的思路。研究结果显示，数据质量的重要性远超数据数量。

研究团队提出了多个未来研究方向，包括动态难度调整和多策略融合。这些方向将有助于进一步提升样本筛选的精度和模型的性能，尤其是在更大规模的多模态模型中验证方法的有效性，推动多模态AI在实际应用中的发展。

❓

GRPO-only方法在视觉推理和感知任务中超越了传统的SFT+RL范式，显著提升了模型性能，尤其在中等和困难样本训练中表现优异。

PISM和CMAB策略用于量化样本难度，分别从视觉敏感性和跨模态交互复杂度两个维度实现样本难度分层，提升模型训练效果。

研究表明，样本难度在多模态大模型训练中比训练范式更为重要，影响模型的推理能力和性能。

实验结果显示，SFT阶段未带来增益，可能限制模型的真实推理能力，因此SFT并不是RL训练的必要步骤。

未来研究方向包括动态难度调整、多策略融合和在更大模型上验证方法有效性。

样本难度通过PISM和CMAB策略进行评估，分别基于视觉信息损失和跨模态注意力平衡进行量化。

🏷️