精细化对数值蒸馏

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

知识蒸馏通过共享基于温度的软最大函数传递软标签。提出将温度设定为logit的加权标准差,并进行Z分数预处理标准化。通过预处理,学生能够关注来自教师的基本logit关系,提高蒸馏方法的性能。在CIFAR-100和ImageNet上的评估中,展示了其优越性。

🎯

关键要点

  • 知识蒸馏通过共享基于温度的软最大函数传递软标签。

  • 教师和学生之间的温度共享假设需要在logit的范围和方差方面精确匹配。

  • 提出将温度设定为logit的加权标准差,并进行Z分数预处理标准化。

  • 预处理使学生能够关注来自教师的基本logit关系,提高蒸馏方法的性能。

  • 传统的温度共享设置不能可靠地产生真实的蒸馏评估。

  • Z分数成功缓解了温度共享带来的挑战。

  • 在CIFAR-100和ImageNet上的评估展示了显著优越性。

  • 纯知识蒸馏方法通过预处理达到与最先进方法相当的性能。

➡️

继续阅读