小红花·文摘

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，解决了由结构化注意力模式引起的语义信息丧失问题。该方法可以在保证准确率的情况下显著减少计算量，达到更优的精度-计算复杂度平衡点。结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Fibottention: 多头多视线接纳的初级视觉表征学习

BriefGPT - AI 论文速递 ·

本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络，通过限制自注意力操作在空间上邻近的一组Token上，并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量，降低Vision Transformers网络的FLOPs超过60%。

视觉 Transformer 中的区域与稀疏注意力融合

BriefGPT - AI 论文速递 ·

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

BriefGPT - AI 论文速递 ·