基于卷积神经网络的MAE自监督方法
💡
原文中文,约1000字,阅读约需3分钟。
📝
内容提要
本文介绍了基于卷积神经网络的MAE自监督方法,通过对输入图片进行mask并进行重建任务,学习到了鲁棒的视觉特征。作者提出了基于CNN的类MAE方法,通过稀疏卷积和分层次的解码器实现了和ViT类似的效果。实验结果表明,该方法在性能上媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果。
🎯
关键要点
- 本文介绍了基于卷积神经网络的MAE自监督方法,学习鲁棒的视觉特征。
- MAE是由何凯明提出的自监督预训练方法,借鉴了BERT的预训练任务。
- MAE通过mask输入图片的patch进行重建任务,性能超过以往的对比学习方法。
- ViT结构复杂,计算量大,基于CNN的类MAE方法具有研究价值。
- CNN的滑窗操作导致模型受到mask部分的影响,无法直接应用常规MAE。
- 作者借鉴3D点云领域的稀疏卷积,仅对未mask的像素进行计算。
- 设计了分层次的解码器,参考UNet结构以学习多尺度特征。
- 实验结果表明,该方法性能媲美原始MAE,并在下游任务中取得SOTA结果。
➡️