BriefGPT - AI 论文速递 ·

基于相关匹配的高效鲁棒知识蒸馏方法

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了知识蒸馏技术，提出了多种新方法，如无教师知识蒸馏（Tf-KD）和鲁棒知识蒸馏（RobustKD），旨在提升学生模型性能。研究表明，均方误差作为损失函数优于KL散度损失，并通过实验验证了不同容量教师模型的有效性。这些方法在多个数据集上表现出色，推动了知识蒸馏技术的发展。

🎯

❓

无教师知识蒸馏（Tf-KD）框架通过自学和手动设计正则化分布，实现了与正常知识蒸馏相媲美的性能。

均方误差优于KL散度损失，能够改善标签噪声，并直接学习教师模型的logit向量。

DR-KD框架通过动态调整目标，使学生模型成为自身的教师，并在蒸馏信息时进行错误更正，从而提高性能。

鲁棒知识蒸馏（RobustKD）方法通过压缩模型减少特征差异，实现学生模型性能和后门缓解的双重目标。

通过扩大大容量教师的非真实类别概率差异，可以有效解决容量不匹配问题。

关系表示蒸馏（RRD）方法利用配对相似性改善学生模型的鲁棒性和性能，表现优于传统知识蒸馏技术。

🏷️