小红花·文摘

该文章介绍了一种名为LA-ViT的新型视觉Transformer架构，通过引入少注意力层和注意力残差模块来减少注意力计算的复杂性和饱和问题。实验证明，LA-ViT在各种视觉任务中表现出色，并具有较低的计算复杂度。