知识蒸馏中的 Logit 标准化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

知识蒸馏方法通过共享基于温度的软最大函数传递软标签。研究者提出了一种新的预处理方法,通过设置温度为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化,以提高现有基于logit的蒸馏方法的性能。实验结果表明,该方法在CIFAR-100和ImageNet上表现出显著优越性。

🎯

关键要点

  • 知识蒸馏通过共享基于温度的软最大函数传递软标签。

  • 教师和学生之间的温度共享假设要求在logit的范围和方差上精确匹配。

  • 提出将温度设定为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化。

  • 该预处理方法使学生能够关注教师的基本logit关系,而无需幅值匹配。

  • 实验表明,Z分数预处理成功缓解了传统温度共享设置带来的挑战。

  • 在CIFAR-100和ImageNet上进行的评估显示了该方法的显著优越性。

  • 纯知识蒸馏方法通过预处理能够达到与最先进方法相当的性能,其他蒸馏变体也能获得显著收益。

➡️

继续阅读