基于任务内互注意力的视觉 Transformer 模型用于少样本学习
原文中文,约300字,阅读约需1分钟。发表于: 。基于 Vision Transformer (ViT) 架构,本文提出了一种用于少样本学习的任务内互注意方法,通过交换支持集和查询集的类别标记与图像片段标记,实现了互注意,从而加强了类内表征,并促进了同一类别样本之间的相似性。与最先进的基准方法相比,在五个常见的少样本分类基准任务中,本文提出的框架在 5-shot 和 1-shot 情况下表现出的性能更好,同时具有简单、高效的计算能力。
本文提出了一种基于Vision Transformer (ViT)架构的任务内互注意方法,用于少样本学习。该方法通过交换支持集和查询集的类别标记与图像片段标记,实现了互注意,加强了类内表征,促进了同一类别样本之间的相似性。在五个常见的少样本分类基准任务中,该方法在5-shot和1-shot情况下表现更好,同时具有简单、高效的计算能力。