通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练

通过最大化因果注意模型的输入和输出之间的相互信息，我们提出了一种名为 Latent Compression Learning（LCL）的视觉模型预训练方法，以有效利用交叉图像 - 文本数据，实现对齐图像 - 文本数据进行预训练并生成强大的视觉表示。

通过无监督预训练实现视觉和语言模型的学习，使用“mask-and-predict”方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁。在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于V&L预训练来说，对齐数据是必要的广泛看法，并显著减少了V&L模型的监督所需量。