小红花·文摘

SSD-KD是一种小规模无数据知识蒸馏方法，通过平衡合成样本的类别分布和难度来提高整体训练效率。实验证明，SSD-KD在极小规模的合成样本条件下，比许多主流方法快一个或两个数量级，同时保持卓越或竞争性的模型性能。