ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习

在计算机视觉任务中，线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力，同时使用更少的 FLOPs...

该研究提出了一种适用于计算机视觉任务的新型模型ViG，通过引入适用于视觉的门控线性注意力（GLA），在准确性、参数和FLOPs上取得了有利的权衡，优于流行的Transformer和基于CNN的模型。ViG-S仅使用参数的27%和FLOPs的20%，在224x224大小的图像上运行速度比DeiT-B快2倍。在1024x1024分辨率下，ViG-T使用的FLOPs比DeiT-T少了5.2倍，节省了90%的GPU内存，运行速度快了4.8倍，并且相比DeiT-T的top-1准确率高出20.7%。

ViG 准确性参数计算机视觉门控线性注意力