小红花·文摘

本文探讨了知识蒸馏（KD）方法的多种改进，如条件互信息、均方误差损失和自适应分配可靠度等，这些改进显著提高了学生模型的准确性。研究表明，在零样本和少样本情况下，准确率提升尤为显著，验证了知识蒸馏在不同架构和数据集上的有效性。