Fibottention: 多头多视线接纳的初级视觉表征学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,解决了由结构化注意力模式引起的语义信息丧失问题。该方法可以在保证准确率的情况下显著减少计算量,达到更优的精度-计算复杂度平衡点。结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

🎯

关键要点

  • 提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络。
  • 自注意力操作限制在空间上邻近的一组 Token 上。
  • 通过轻量级的连接性预测器模块评估 Token 之间的连接得分。
  • 解决了由结构化注意力模式引起的语义信息丧失问题。
  • 在保证准确率的情况下显著减少计算量。
  • 达到更优的精度-计算复杂度平衡点。
  • 结合 Token 稀疏机制,降低 Vision Transformers 网络的 FLOPs 超过 60%。
➡️

继续阅读