门控插槽注意力用于高效线性时间序列建模
原文中文,约600字,阅读约需2分钟。发表于: 。本研究针对线性注意力变换器在记忆密集型任务中的不足以及训练资源需求高的问题,提出了门控插槽注意力(GSA)。通过引入一种灵感来源于门控线性注意力的门控机制,GSA提高了记忆容量并保持紧凑的递归状态大小,从而在训练和推理效率上实现了显著提升。实验结果表明,在需要上下文回忆的场景和预训练变换器到RNN的微调设置中,GSA展现出了卓越的性能。
在计算机视觉任务中,引入了适用于视觉的门控线性注意力(GLA),通过方向性门控和二维门控局部注入来提高模型性能。ViG在ImageNet和下游任务中表现优于Transformer和基于CNN的模型。ViG-S和ViG-T在性能和资源消耗方面都有显著的改进。