晓飞的算法工程笔记 ·

DeiT-LT：印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024 - 晓飞的算法工程笔记

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

DeiT-LT是一种在长尾数据集上应用的高效ViT模型，通过蒸馏CNN知识和使用分布外图像来增强对尾类的关注。DeiT-LT使用经过SAM训练的CNN教师来提取低秩泛化特征，通过训练方案，DIST和CLS标记成为尾类和头类的专家。DeiT-LT在长尾数据集上从头训练ViT，提高了性能。

🎯

❓

DeiT-LT是一种高效的ViT模型，专门用于长尾数据集，通过蒸馏CNN知识和使用分布外图像增强对尾类的关注。

DeiT-LT通过蒸馏CNN知识和引入分布外图像，使用延迟重加权来计算蒸馏损失，从而增强对尾部类别的关注。

使用SAM训练的CNN教师模型可以提高特征的泛化性，特别是对于少数类，帮助学习低秩泛化特征。

实验结果表明，DeiT-LT在小规模和大规模长尾数据集上均表现出色，显著提高了模型性能。

DeiT-LT通过使用经过SAM训练的CNN教师进行蒸馏，提取低秩泛化特征，从而减轻过拟合。

DeiT-LT引入了DIST标记作为尾类专家，与CLS标记作为头类专家相结合，能够有效学习不同类别的特征。

🏷️