推测性知识蒸馏：通过交叉采样缩小教师与学生之间的差距

本文针对当前知识蒸馏方法在教师学生之间存在的知识差距问题，提出了一种新颖的推测性知识蒸馏方法（SKD），通过教师与学生模型的合作，实时生成高质量训练数据，从而提升知识传递的有效性。实验表明，SKD在多种文本生成任务中均优于现有的知识蒸馏方法，显示出更强的适应性和准确性。

大规模预训练模型中，知识蒸馏通过将教师模型的知识转移到学生模型，降低计算负担。传统方法依赖教师模型推理，成本高。本文提出少教师推理知识蒸馏（FTI KD），通过比较式知识蒸馏（CKD）减少对教师模型的依赖，使学生模型无需频繁调用教师模型即可理解其差异。实验显示，CKD在有限教师调用下效果优于现有方法。

CKD FTI KD 学生模型教师模型知识蒸馏