小红花·文摘

通过无监督预训练实现视觉和语言模型的学习，使用“mask-and-predict”方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁。在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于V&L预训练来说，对齐数据是必要的广泛看法，并显著减少了V&L模型的监督所需量。