图像掩蔽残差学习用于深度视觉 Transformer 的扩展

深度 ViT 在使用 MIM 进行预训练时暴露出深层退化问题，为了缓解深度 ViT 的训练困难，我们引入了一种自监督学习框架 MIRL，该框架显著缓解了退化问题，使得 ViT 的深度扩展成为性能提升的有希望的方向。

本文介绍了一种基于蒙版图像建模的框架A^2MIM，可用于Transformers和CNNs网络，通过对补丁之间的相互作用的研究，发现该方法可以教授模型更好地处理中阶交互和提取通用特征的能力，并通过实验证明了该方法可以在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

A^2MIM CNNs Transformers transformer 中阶交互蒙版图像建模