EViT:鹰眼视觉 Transformer 与双凹视域自注意力机制
原文中文,约300字,阅读约需1分钟。发表于: 。基于鹰眼的生理结构与特点,本研究提出了一种新颖的双凹中注意力(BFSA)算法,以缓解视觉变换器在计算复杂性和感应偏见缺失方面的挑战,并结合 CNN 和 Vision Transformer 设计了生物仿生鹰眼视觉(BEV)模块,最终通过堆叠 BEV 模块完成了统一高效的金字塔主干网络(EViTs)家族的开发,实验结果表明 EViTs...
本研究提出了一种新颖的双凹中注意力算法,结合CNN和Vision Transformer设计了生物仿生鹰眼视觉模块,最终完成了统一高效的金字塔主干网络家族的开发。实验结果表明EViTs在多个计算机视觉任务上具有显著的优势。