知识蒸馏中重新思考聚焦核对齐
原文中文,约400字,阅读约需1分钟。发表于: 。使用 CKA(Centered Kernel Alignment)理论有效地将大规模模型和轻量级模型之间的表达差异解耦为 MMD(Maximum Mean Discrepancy)的上界和一个常数项,提出了一种新颖的 RCKA(Relation-Centered Kernel Alignment)框架,根据任务特征动态定制 CKA 的应用,以较低的计算源消耗获得相比前期方法相当的性能,在...
本文介绍了一种面向少教师推理的知识蒸馏方法(FTI KD),通过比较式知识蒸馏(CKD)来减少对教师模型推理的依赖。实验证明,CKD优于最先进的数据增强和知识蒸馏技术。