Kendall的$τ$系数用于Logits蒸馏
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
知识蒸馏通过软标签传递信息,但传统的温度共享假设要求精确匹配logit的范围和方差。为解决此问题,提出使用logit的加权标准差设定温度,并在应用softmax和KL散度前进行Z分数预处理。这种方法无需匹配幅值,提升了蒸馏性能。研究表明,传统温度共享不可靠,而Z分数能有效缓解此问题。对CIFAR-100和ImageNet的评估显示,该方法显著提升了知识蒸馏效果。
🎯
关键要点
- 知识蒸馏通过软标签传递信息,使用基于温度的软最大函数。
- 传统的温度共享假设要求教师和学生之间logit的范围和方差精确匹配。
- 提出使用logit的加权标准差设定温度,并在应用softmax和KL散度前进行Z分数预处理。
- 这种方法无需匹配幅值,提升了蒸馏性能。
- 研究表明,传统温度共享不可靠,而Z分数能有效缓解此问题。
- 对CIFAR-100和ImageNet的评估显示,该方法显著提升了知识蒸馏效果。
- 纯知识蒸馏方法通过预处理达到与最先进方法相当的性能,其他蒸馏变体也获得显著收益。
➡️