本研究提出了Residual Knowledge Distillation (RKD)和加权平均知识蒸馏(WAKD)等多种知识蒸馏方法,旨在提升模型压缩效果和训练效率。这些方法在多个数据集上表现优异,有效解决了容量差距和错误监督问题,推动了知识蒸馏领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。