小红花·文摘

本文介绍了基于卷积神经网络的MAE自监督方法，通过对输入图片进行mask并进行重建任务，学习到了鲁棒的视觉特征。作者提出了基于CNN的类MAE方法，通过稀疏卷积和分层次的解码器实现了和ViT类似的效果。实验结果表明，该方法在性能上媲美原始的MAE方法，并在各种下游任务中取得了SOTA的结果。