基于卷积神经网络的MAE自监督方法

💡 原文中文,约1000字,阅读约需3分钟。
📝

内容提要

本文介绍了基于卷积神经网络的MAE自监督方法,通过对输入图片进行mask并进行重建任务,学习到了鲁棒的视觉特征。作者提出了基于CNN的类MAE方法,通过稀疏卷积和分层次的解码器实现了和ViT类似的效果。实验结果表明,该方法在性能上媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果。

🎯

关键要点

  • 本文介绍了基于卷积神经网络的MAE自监督方法,学习鲁棒的视觉特征。
  • MAE是由何凯明提出的自监督预训练方法,借鉴了BERT的预训练任务。
  • MAE通过mask输入图片的patch进行重建任务,性能超过以往的对比学习方法。
  • ViT结构复杂,计算量大,基于CNN的类MAE方法具有研究价值。
  • CNN的滑窗操作导致模型受到mask部分的影响,无法直接应用常规MAE。
  • 作者借鉴3D点云领域的稀疏卷积,仅对未mask的像素进行计算。
  • 设计了分层次的解码器,参考UNet结构以学习多尺度特征。
  • 实验结果表明,该方法性能媲美原始MAE,并在下游任务中取得SOTA结果。
➡️

继续阅读