研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。
该论文介绍了一个全球建筑物语义分割(GBSS)数据集,用于评估建筑物语义分割模型的泛化能力和鲁棒性。该数据集包含116.9k对样本,来自六大洲,具有不同的大小和风格。通过定量和定性比较,验证了该数据集在迁移学习领域的潜力。
完成下面两步后,将自动完成登录并继续当前操作。