优秀教师解释:解释增强的知识蒸馏

原文约400字,阅读约需1分钟。发表于:

通过优化经典 KD 损失和教师与学生生成的解释的相似度,提出的解释增强型 KD(e^2KD)能够显著提高准确性和学生 - 教师一致性,并确保学生从教师那里得到正确的原因和相似的解释,同时能适应不同模型架构、训练数据量,甚至使用预计算的 “近似” 解释。

本文介绍了一种面向少教师推理的知识蒸馏方法(FTI KD),通过比较式知识蒸馏(CKD)来减少对教师模型推理的依赖。实验证明,CKD优于最先进的数据增强和知识蒸馏技术。

相关推荐 去reddit讨论