SSD-KD:天翼云&清华出品,最新无原始数据的蒸馏研究 | CVPR'24 - 晓飞的算法工程笔记
💡
原文中文,约7700字,阅读约需19分钟。
📝
内容提要
SSD-KD是一种小规模无数据知识蒸馏方法,通过平衡合成样本的类别分布和难度来提高整体训练效率。实验证明,SSD-KD在极小规模的合成样本条件下,比许多主流方法快一个或两个数量级,同时保持卓越或竞争性的模型性能。
🎯
关键要点
- SSD-KD是一种小规模无数据知识蒸馏方法,旨在提高训练效率。
- 无数据知识蒸馏利用教师网络的知识来训练学生网络,无需原始训练数据。
- 现有方法通常依赖于生成对抗网络合成大规模样本,SSD-KD则关注小规模样本的逆向蒸馏。
- SSD-KD通过平衡合成样本的类别分布和难度来提升训练效率。
- 实验证明,SSD-KD在极小规模合成样本下比主流方法快一个或两个数量级。
- SSD-KD引入调节函数和优先采样函数来优化样本选择和训练过程。
- SSD-KD在图像分类和语义分割基准上验证了其卓越的模型性能。
➡️