模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

研究提出了一种基于Sinkhorn距离的知识蒸馏方法SinKD,克服了传统方法的局限性,能够有效将复杂教师模型的知识转移至简单学生模型,提升其性能。实验结果表明,SinKD在多种自然语言处理任务中优于现有方法,具有广泛的应用潜力。

🎯

关键要点

  • 提出了一种基于Sinkhorn距离的知识蒸馏方法SinKD,克服了传统方法的局限性。
  • SinKD能够有效将复杂教师模型的知识转移至简单学生模型,提升其性能。
  • 现有知识蒸馏方法存在输出差异大时效果不佳的问题。
  • KL散度、RKL散度和JS散度各自存在缺陷,影响学生模型的学习效果。
  • Sinkhorn距离能更准确地衡量教师模型和学生模型之间的差异。
  • 研究提出了一种基于批量的重构方法,捕捉高维空间中的几何复杂性。
  • SinKD在GLUE和SuperGLUE等自然语言处理测试集上表现优于现有方法。
  • SinKD方法通过批量化处理提高了蒸馏效率,适用于多种任务和模型架构。
  • 实验结果表明,SinKD在大部分任务上取得了更好的性能。
  • SinKD方法还可以扩展到独热标签微调和计算机视觉领域的深度网络。
➡️

继续阅读