小红花·文摘

研究表明，在多模态大模型训练中，样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法，在视觉推理和感知任务中超越传统的SFT+RL范式，提出了PISM和CMAB两种难度量化策略，显著提升了模型性能，验证了难度感知采样的有效性。