DeiT-LT:印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024 - 晓飞的算法工程笔记
💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
DeiT-LT是一种在长尾数据集上应用的高效ViT模型,通过蒸馏CNN知识和使用分布外图像来增强对尾类的关注。DeiT-LT使用经过SAM训练的CNN教师来提取低秩泛化特征,通过训练方案,DIST和CLS标记成为尾类和头类的专家。DeiT-LT在长尾数据集上从头训练ViT,提高了性能。
🎯
关键要点
- DeiT-LT 是一种高效的 ViT 模型,专门用于长尾数据集。
- 通过蒸馏 CNN 知识和使用分布外图像,DeiT-LT 增强了对尾类的关注。
- 使用经过 SAM 训练的 CNN 教师提取低秩泛化特征,减轻过拟合。
- DIST 标记成为尾类专家,CLS 标记成为头类专家,有效学习不同类别特征。
- DeiT-LT 通过强增强生成的分布外图像进行有效蒸馏,提升了模型性能。
- 引入延迟重加权 (DRW) 来计算蒸馏损失,增强尾部类别的关注。
- OOD 蒸馏使得 CLS 和 DIST 标记的特征表达有所不同,促进了专家的形成。
- 通过 SAM 训练的 CNN 教师模型提高了特征的泛化性,特别是对于少数类。
- DeiT-LT 在较低分辨率下训练小型 CNN,显著减少了计算要求和训练时间。
- 实验结果表明,DeiT-LT 在小规模和大规模长尾数据集上均表现出色。
❓
延伸问答
DeiT-LT模型的主要特点是什么?
DeiT-LT是一种高效的ViT模型,专门用于长尾数据集,通过蒸馏CNN知识和使用分布外图像增强对尾类的关注。
DeiT-LT如何提高对尾类的关注?
DeiT-LT通过蒸馏CNN知识和引入分布外图像,使用延迟重加权来计算蒸馏损失,从而增强对尾部类别的关注。
使用SAM训练的CNN教师模型有什么优势?
使用SAM训练的CNN教师模型可以提高特征的泛化性,特别是对于少数类,帮助学习低秩泛化特征。
DeiT-LT在长尾数据集上的表现如何?
实验结果表明,DeiT-LT在小规模和大规模长尾数据集上均表现出色,显著提高了模型性能。
DeiT-LT是如何处理过拟合问题的?
DeiT-LT通过使用经过SAM训练的CNN教师进行蒸馏,提取低秩泛化特征,从而减轻过拟合。
DeiT-LT与传统DeiT模型有什么不同?
DeiT-LT引入了DIST标记作为尾类专家,与CLS标记作为头类专家相结合,能够有效学习不同类别的特征。
➡️