作者发现深层ViT存在注意力崩溃问题,提出Re-attention机制以解决该问题。该机制在增加ViT深度时有效提升性能,同时计算和内存开销较小。Re-attention通过可学习的方式在多头自注意力中实现信息交换,增强注意力图的多样性,克服深层模型的性能瓶颈。
完成下面两步后,将自动完成登录并继续当前操作。