ToSA:用于高效视觉 Transformer 的令牌选择性注意力
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了一种新颖的令牌选择性注意力方法,即 ToSA,它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA,我们能够显著减少计算成本,同时在 ImageNet 分类基准上保持准确性,并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。
本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络,通过限制自注意力操作在空间上邻近的一组Token上,并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量,降低Vision Transformers网络的FLOPs超过60%。