ToSA:用于高效视觉 Transformer 的令牌选择性注意力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络,通过限制自注意力操作在空间上邻近的一组Token上,并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量,降低Vision Transformers网络的FLOPs超过60%。
🎯
关键要点
-
提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络。
-
自注意力操作限制在空间上邻近的一组 Token 上。
-
通过轻量级的连接性预测器模块评估 Token 之间的连接得分。
-
解决由结构化注意力模式引起的语义信息丧失问题。
-
在保证准确率的情况下显著减少计算量。
-
达到更优的精度-计算复杂度平衡点。
-
结合 Token 稀疏机制,降低 Vision Transformers 网络的 FLOPs 超过 60%。
➡️