尺度解耦蒸馏

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

知识蒸馏方法通过改进温度共享设置,提高了学生模型的性能,并在CIFAR-100和ImageNet上进行了评估。预处理方法使纯知识蒸馏方法达到了最先进方法的性能,并提供了其他蒸馏变体的收益。

🎯

关键要点

  • 知识蒸馏通过共享基于温度的软最大函数传递软标签。
  • 教师和学生之间的温度共享假设需要强制精确匹配 logit 的范围和方差。
  • 提出将温度设定为 logit 的加权标准差,并进行 Z 分数预处理标准化。
  • 预处理使学生关注教师的基本 logit 关系,而不需要幅值匹配。
  • 展示了传统温度共享设置无法可靠地产生真实的蒸馏评估。
  • Z 分数成功缓解了传统设置带来的挑战。
  • 在 CIFAR-100 和 ImageNet 上对各种学生和教师模型进行了广泛评估,显示显著优越性。
  • 纯知识蒸馏方法通过预处理达到了与最先进方法相当的性能。
  • 其他蒸馏变体在预处理辅助下获得了显著收益。
➡️

继续阅读