研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。
本文研究数据集蒸馏,提出HaBa方法,通过将数据集分解为数据幻象网络和基础部分,提升数据压缩效果和跨体系结构的泛化能力。同时探讨样本难度对蒸馏数据集质量的影响,提出样本难度修正方法(SDC),在多种蒸馏方法和数据集上显著提高了数据集质量。
本文介绍了一种新的洪水正则化方法AdaFlood,可以根据样本难度调整每个训练样本的洪水水位,提高测试泛化。实验证明,AdaFlood在不同数据领域和噪声水平下具有多功能性。
该文介绍了一种能够根据样本难度的先验知识,在课程空间内发现有效课程的学习框架。使用注释熵和损失作为难度度量标准,发现顶级课程通常是非单调课程,易于难或难于易过渡课程存在表现不佳的风险。该框架包含一些现有的课程学习方法,并在几个自然语言处理任务上优于它们的课程。
该文介绍了一种根据样本难度发现有效课程的学习框架。通过使用注释熵和损失作为难度度量标准,研究发现顶级课程通常是非单调的,并且易于难或难于易过渡的课程存在表现不佳的风险。此外,较小数据集和模型上表现良好的课程在较大数据集和模型上也表现良好。该框架在几个自然语言处理任务上优于现有的课程学习方法。
完成下面两步后,将自动完成登录并继续当前操作。