基于课程学习的多模态对比掩模自编码器预训练

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

CoMAE是一种混合预训练框架,通过交叉模态对比学习和遮蔽图像建模来进行自监督表示学习。实验结果表明,CoMAE的预训练模型在小规模和无标签的训练集上具有与大规模和监督RGB数据集预训练方法相竞争的效果。

🎯

关键要点

  • CoMAE是一种单模型自监督混合预训练框架。
  • CoMAE通过交叉模态对比学习和遮蔽图像建模进行自监督表示学习。
  • 采用课程学习策略来统一两种流行的自监督表示学习算法。
  • 设计了一个修补程序级别对齐任务来预训练单一编码器,支持两个模态。
  • 在SUN RGB-D和NYUDv2数据集上的实验表明,CoMAE在小规模和无标签的训练集上表现优异。
  • CoMAE的预训练模型与大规模和监督RGB数据集预训练方法相竞争。
➡️

继续阅读