小红花·文摘

本研究提出了Residual Knowledge Distillation (RKD)和加权平均知识蒸馏（WAKD）等多种知识蒸馏方法，旨在提升模型压缩效果和训练效率。这些方法在多个数据集上表现优异，有效解决了容量差距和错误监督问题，推动了知识蒸馏领域的发展。