最近的研究发现,使用预训练教师模型生成的软标签在数据集蒸馏中具有优势。本文提出了一种新的方法GIFT,通过优化软标签和使用余弦相似性的损失函数,充分利用标签信息。实验证明,GIFT方法在各种规模的数据集蒸馏中提升了性能,而不增加计算成本。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: