小规模无数据知识蒸馏
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种名为KD$^{3}$的新方法,用于从互联网收集训练实例并学习轻量级学生网络。该方法通过教师网络和学生网络的综合预测动态选择有用的训练实例,并对齐两个网络的特征和分类器参数进行知识记忆。实验结果表明,KD$^{3}$能够超越现有的无数据知识蒸馏方法。
🎯
关键要点
- 知识蒸馏是从预训练教师网络学习轻量级学生网络的方法。
- 现有方法在原始训练数据不可用时往往不可行。
- 提出了一种名为“不同分布知识蒸馏”的新方法(KD$^{3}$)。
- KD$^{3$包括三个组件:从互联网收集训练实例、动态选择有用的训练实例、对齐两个网络的特征和分类器参数进行知识记忆。
- 新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。
- 实验结果表明,KD$^{3}$能够超越现有的无数据知识蒸馏方法。
➡️