小红花·文摘

本文提出了一种数据集蒸馏的方法，通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率，并提出增强策略，以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明，该方法在各种规模、大小和分辨率的数据集上明显优于之前的方法。