基于任务内互注意力的视觉 Transformer 模型用于少样本学习

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了一种基于Vision Transformer (ViT)架构的任务内互注意方法,用于少样本学习。该方法通过交换支持集和查询集的类别标记与图像片段标记,实现了互注意,加强了类内表征,促进了同一类别样本之间的相似性。在五个常见的少样本分类基准任务中,该方法在5-shot和1-shot情况下表现更好,同时具有简单、高效的计算能力。

🎯

关键要点

  • 提出了一种基于Vision Transformer (ViT)架构的任务内互注意方法。
  • 该方法通过交换支持集和查询集的类别标记与图像片段标记实现互注意。
  • 互注意加强了类内表征,促进了同一类别样本之间的相似性。
  • 在五个常见的少样本分类基准任务中,该方法在5-shot和1-shot情况下表现更好。
  • 该方法具有简单、高效的计算能力。
➡️

继续阅读