3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
Kaleido-BERT是一种新型的视觉-语言预训练模型,通过对齐引导的遮盖策略和五项自监督任务进行VL预训练,实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。
🎯
关键要点
- Kaleido-BERT是一种新型的视觉-语言预训练模型。
- 采用对齐引导的遮盖策略和五项自监督任务进行VL预训练。
- 实现了更好的图像-文本语义关系表示。
- 在四个下游任务上实现了领先的性能。
- 特别是在时装图像标注任务上展示了广泛潜力。
➡️