推测性知识蒸馏:通过交叉采样缩小教师与学生之间的差距
原文中文,约400字,阅读约需1分钟。发表于: 。本文针对当前知识蒸馏方法在教师学生之间存在的知识差距问题,提出了一种新颖的推测性知识蒸馏方法(SKD),通过教师与学生模型的合作,实时生成高质量训练数据,从而提升知识传递的有效性。实验表明,SKD在多种文本生成任务中均优于现有的知识蒸馏方法,显示出更强的适应性和准确性。
大规模预训练模型中,知识蒸馏通过将教师模型的知识转移到学生模型,降低计算负担。传统方法依赖教师模型推理,成本高。本文提出少教师推理知识蒸馏(FTI KD),通过比较式知识蒸馏(CKD)减少对教师模型的依赖,使学生模型无需频繁调用教师模型即可理解其差异。实验显示,CKD在有限教师调用下效果优于现有方法。