DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于自注意力块的局部信息增强模块LIFE,通过提取局部信息并合并到ViTs的嵌入中,改进了ViTs在小尺寸图像分类数据集上的性能,并推广到目标检测和语义分割等任务。同时,引入了一种新的可视化方法密集注意力Roll-Out,适用于密集预测任务。

🎯

关键要点

  • 提出了一种基于自注意力块的局部信息增强模块LIFE。
  • LIFE通过提取补丁级别的局部信息并合并到ViTs的嵌入中,改进了ViTs在小尺寸图像分类数据集上的性能。
  • 该模块还被推广到目标检测和语义分割等下游任务。
  • 引入了一种新的可视化方法——密集注意力Roll-Out,适用于密集预测任务。
➡️

继续阅读