重标签消失!标签空间轻量化的数据集蒸馏
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
最近的研究发现,使用预训练教师模型生成的软标签在数据集蒸馏中具有优势。本文提出了一种名为GIFT的方法,通过优化软标签和使用基于余弦相似性的损失函数,有效利用全面的标签信息。实验证明,GIFT方法在各种规模的数据集蒸馏中提升了性能,而不增加额外的计算成本。
🎯
关键要点
-
近期研究表明,预训练教师模型生成的软标签在数据集蒸馏中具有显著优势。
-
本文强调充分利用标签的重要性,并比较了多种损失函数在软标签利用中的效果。
-
发现合成数据集上训练的模型对损失函数选择敏感,需通用损失函数。
-
提出了一种名为GIFT的方法,结合软标签优化和基于余弦相似性的损失函数。
-
GIFT方法在各种规模的数据集蒸馏中提升了性能,且不增加计算成本。
-
在ImageNet-1K上,GIFT方法在ConvNet和ResNet-18上分别提升了3.9%和1.8%的性能。
➡️