Fibottention: 多头多视线接纳的初级视觉表征学习
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入 Fibonacci 序列,将 Fibottention 机制嵌入多种视觉任务的 Transformer 架构中,可以在保持计算开销较低的同时,显著提升图像分类、视频理解和机器人学习任务中 ViT 及其变体的性能。
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,解决了由结构化注意力模式引起的语义信息丧失问题。该方法可以在保证准确率的情况下显著减少计算量,达到更优的精度-计算复杂度平衡点。结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。