3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

Kaleido-BERT是一种新型的视觉-语言预训练模型,通过对齐引导的遮盖策略和五项自监督任务进行VL预训练,实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。

🎯

关键要点

  • Kaleido-BERT是一种新型的视觉-语言预训练模型。
  • 采用对齐引导的遮盖策略和五项自监督任务进行VL预训练。
  • 实现了更好的图像-文本语义关系表示。
  • 在四个下游任务上实现了领先的性能。
  • 特别是在时装图像标注任务上展示了广泛潜力。
➡️

继续阅读