知识蒸馏中的 Logit 标准化
原文中文,约500字,阅读约需2分钟。发表于: 。知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在 logit 的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为 logit 的加权标准差,并在应用 softmax 和 Kullback-Leibler 散度之前进行 Z 分数预处理标准化。我们的预处理使学生能够关注来自教师的基本 logit...
知识蒸馏方法通过共享基于温度的软最大函数传递软标签。研究者提出了一种新的预处理方法,通过设置温度为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化,以提高现有基于logit的蒸馏方法的性能。实验结果表明,该方法在CIFAR-100和ImageNet上表现出显著优越性。