小红花·文摘

Kaleido-BERT是一种新型的视觉-语言预训练模型，通过对齐引导的遮盖策略和五项自监督任务进行VL预训练，实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。