ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习
原文中文,约700字,阅读约需2分钟。发表于: 。在计算机视觉任务中,线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力,同时使用更少的 FLOPs...
该研究提出了一种适用于计算机视觉任务的新型模型ViG,通过引入适用于视觉的门控线性注意力(GLA),在准确性、参数和FLOPs上取得了有利的权衡,优于流行的Transformer和基于CNN的模型。ViG-S仅使用参数的27%和FLOPs的20%,在224x224大小的图像上运行速度比DeiT-B快2倍。在1024x1024分辨率下,ViG-T使用的FLOPs比DeiT-T少了5.2倍,节省了90%的GPU内存,运行速度快了4.8倍,并且相比DeiT-T的top-1准确率高出20.7%。