本文介绍了基于卷积神经网络的MAE自监督方法,通过对输入图片进行mask并进行重建任务,学习到了鲁棒的视觉特征。作者提出了基于CNN的类MAE方法,通过稀疏卷积和分层次的解码器实现了和ViT类似的效果。实验结果表明,该方法在性能上媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果。
完成下面两步后,将自动完成登录并继续当前操作。