ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

该研究提出了一种适用于计算机视觉任务的新型模型ViG,通过引入适用于视觉的门控线性注意力(GLA),在准确性、参数和FLOPs上取得了有利的权衡,优于流行的Transformer和基于CNN的模型。ViG-S仅使用参数的27%和FLOPs的20%,在224x224大小的图像上运行速度比DeiT-B快2倍。在1024x1024分辨率下,ViG-T使用的FLOPs比DeiT-T少了5.2倍,节省了90%的GPU内存,运行速度快了4.8倍,并且相比DeiT-T的top-1准确率高出20.7%。

🎯

关键要点

  • 该研究提出了一种新型模型ViG,适用于计算机视觉任务。
  • ViG引入了门控线性注意力(GLA),在准确性、参数和FLOPs上取得了有利的权衡。
  • ViG-S仅使用参数的27%和FLOPs的20%,在224x224大小的图像上运行速度比DeiT-B快2倍。
  • 在1024x1024分辨率下,ViG-T使用的FLOPs比DeiT-T少5.2倍,节省90%的GPU内存,运行速度快4.8倍。
  • ViG-T相比DeiT-T的top-1准确率高出20.7%。
  • ViG被认为是一种高效且可扩展的视觉表示学习解决方案。
➡️

继续阅读