本文综述了教师-学生架构下的知识蒸馏方法,包括知识压缩、扩展、适应和增强。研究了Born-Again Networks (BANs)在计算机视觉和语言建模中的表现,提出了改进的知识蒸馏技术,如Annealing-KD和比较式知识蒸馏(CKD),并探讨了在大规模预训练模型时代有效转移知识以提升学生模型性能的方法。
完成下面两步后,将自动完成登录并继续当前操作。