Kendall的$τ$系数用于Logits蒸馏

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

知识蒸馏通过软标签传递信息,但传统的温度共享假设要求精确匹配logit的范围和方差。为解决此问题,提出使用logit的加权标准差设定温度,并在应用softmax和KL散度前进行Z分数预处理。这种方法无需匹配幅值,提升了蒸馏性能。研究表明,传统温度共享不可靠,而Z分数能有效缓解此问题。对CIFAR-100和ImageNet的评估显示,该方法显著提升了知识蒸馏效果。

🎯

关键要点

  • 知识蒸馏通过软标签传递信息,使用基于温度的软最大函数。
  • 传统的温度共享假设要求教师和学生之间logit的范围和方差精确匹配。
  • 提出使用logit的加权标准差设定温度,并在应用softmax和KL散度前进行Z分数预处理。
  • 这种方法无需匹配幅值,提升了蒸馏性能。
  • 研究表明,传统温度共享不可靠,而Z分数能有效缓解此问题。
  • 对CIFAR-100和ImageNet的评估显示,该方法显著提升了知识蒸馏效果。
  • 纯知识蒸馏方法通过预处理达到与最先进方法相当的性能,其他蒸馏变体也获得显著收益。
➡️

继续阅读