DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种基于自注意力块的局部信息增强模块LIFE,通过提取局部信息并合并到ViTs的嵌入中,改进了ViTs在小尺寸图像分类数据集上的性能,并推广到目标检测和语义分割等任务。同时,引入了一种新的可视化方法密集注意力Roll-Out,适用于密集预测任务。
🎯
关键要点
- 提出了一种基于自注意力块的局部信息增强模块LIFE。
- LIFE通过提取补丁级别的局部信息并合并到ViTs的嵌入中,改进了ViTs在小尺寸图像分类数据集上的性能。
- 该模块还被推广到目标检测和语义分割等下游任务。
- 引入了一种新的可视化方法——密集注意力Roll-Out,适用于密集预测任务。
➡️