DeepKD: A Deep Decoupling and Denoising Knowledge Distillation Trainer
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了DeepKD框架,旨在解决知识蒸馏中目标类与非目标类知识冲突及低置信度噪声问题。通过双重解耦和自适应去噪,显著提升了知识转移效果。
🎯
关键要点
- 本研究提出了DeepKD框架,旨在解决知识蒸馏中的知识冲突和低置信度噪声问题。
- DeepKD框架结合了双重解耦和自适应去噪技术。
- 设计了独立的动量更新器和动态顶级掩码机制,以提高知识转移的有效性。
- 实验证明,DeepKD在多个数据集上展现出显著的性能提升。
➡️