UniM$^2$AE:自主驾驶中统一的三维感知的多模态掩码自编码器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

CoMAE是一种单模型自监督混合预训练框架,通过交叉模态对比学习和遮蔽图像建模来统一自监督表示学习算法。CoMAE在SUN RGB-D和NYUDv2数据集上的实验表明,其预训练模型具有与大规模和监督RGB数据集预训练方法相竞争的效果。

🎯

关键要点

  • CoMAE是一种单模型自监督混合预训练框架。
  • CoMAE通过交叉模态对比学习和遮蔽图像建模来统一自监督表示学习算法。
  • 采用课程学习策略来整合两种流行的自监督表示学习算法。
  • 设计了一个修补程序级别对齐任务来预训练单一编码器,支持两个模态的共享。
  • 在SUN RGB-D和NYUDv2数据集上的实验表明,CoMAE的预训练模型效果与大规模监督RGB数据集预训练方法相竞争。
  • CoMAE在小规模和无标签的训练集上进行预训练,仍然表现出色。
➡️

继续阅读