基于课程学习的多模态对比掩模自编码器预训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
CoMAE是一种混合预训练框架,通过交叉模态对比学习和遮蔽图像建模来进行自监督表示学习。实验结果表明,CoMAE的预训练模型在小规模和无标签的训练集上具有与大规模和监督RGB数据集预训练方法相竞争的效果。
🎯
关键要点
- CoMAE是一种单模型自监督混合预训练框架。
- CoMAE通过交叉模态对比学习和遮蔽图像建模进行自监督表示学习。
- 采用课程学习策略来统一两种流行的自监督表示学习算法。
- 设计了一个修补程序级别对齐任务来预训练单一编码器,支持两个模态。
- 在SUN RGB-D和NYUDv2数据集上的实验表明,CoMAE在小规模和无标签的训练集上表现优异。
- CoMAE的预训练模型与大规模和监督RGB数据集预训练方法相竞争。
➡️